聲學指紋Acoustic fingerprint)是通過特定算法從音頻信號中提取的一段數字摘要,用於識別聲音樣本或者快速定位音頻數據庫中的相似音頻。

音頻壓縮技術的進步以及大容量存儲器的出現使得互聯網上出現了以音樂為主的海量音頻信息,手工選取某首歌曲很多時候已經變得不可能,這直接促使產生了可以進行音樂自動識別的數字音頻指紋技術。

應用

編輯

聲學指紋的實踐應用包括:識別歌曲記錄旋律音調廣告廣播監控點對點網絡監控;聲效庫管理;視頻文件識別,甚至更多。

屬性

編輯

音頻指紋是指可以代表一段音樂重要聲學特徵的基於內容的緊緻數字簽名,其主要目的是建立一種有效機制來比較兩個音頻數據的感知聽覺質量。注意這裡不是直接比較通常很大的音頻數據本身,而是比較其相應通常較小的數字指紋。大量音頻數據的指紋和其相應的元數據比如歌曲名稱、詞曲作者、歌詞等內容一起存儲在一個數據庫中,並採用指紋作為相應元數據的索引。

一個音頻指紋系統通常包括兩個部分:即一個計算聽覺重要特徵的指紋提取算法和一個在指紋數據庫中進行有效搜索的比對算法。當要識別一段未知音頻時,首先按照指紋提取算法計算其音頻特徵,然後和數據庫中存儲的大量音頻指紋相比對從而進行識別。一個有效的指紋提取算法和指紋比對算法能夠在數據庫中正確識別出可能經受各種信號處理失真的未知音頻的原始版本。若識別到對應的原始指紋,則可提取出相應的元數據信息返回給用戶。

一個健壯的聲學指紋識別算法必須考慮到聲音的感知特性。如果兩段音頻文件人們聽起來是一樣的,即便它們的二進制表示形式不一樣,它們的聲學指紋也應該是相同的或者非常相似的。(因此,聲學指紋從嚴格意義上講並不屬於——真正的指紋——必須能夠區分數據上任何細小的差別。)

不同的音頻壓縮技術(包括:MP3WMAVorbis等)在對音頻文件的二進制編碼方式上雖然有較大差別,但是卻不影響音頻文件播放的效果。健壯的聲學指紋識別算法應該能夠正確的識別出經過壓縮的音頻文件,甚至在音頻質量有明顯下降的情況下也能夠正確識別。在用於廣播監控時,聲學指紋識別算法還應能忽略模擬傳輸對音頻造成影響。

另一方面,優秀的聲學指紋識別算法能夠在眾多音頻記錄中識別出特殊的主記錄。在用於法庭證物時,聲學指紋必須保證其準確性。

實現

編輯
  • Midomi,利用上傳使用者哼出的或錄製的樂曲片段搜索對應的音樂曲目。
  • Shazam