梅爾倒頻譜

在訊號處理中，梅爾倒頻譜（Mel-Frequency Cepstrum, MFC）係一個可用來代表短期音訊的頻譜，其原理基於用非線性的梅爾刻度（mel scale）表示的對數頻譜及其線性餘弦轉換（linear cosine transform）上。

梅爾頻率倒譜係數（Mel-Frequency Cepstral Coefficients, MFCC）是一組用來建立梅爾倒頻譜的關鍵係數。由音樂訊號當中的片段，可以得到一組足以代表此音樂訊號之倒頻譜（Cepstrum），而梅爾倒頻譜係數即是從這個倒頻譜中推得的倒頻譜（也就是頻譜的頻譜）。與一般的倒頻譜不同，梅爾倒頻譜最大的特色在於，於梅爾倒頻譜上的頻帶是均勻分布於梅爾刻度上的，也就是說，這樣的頻帶相較於一般所看到、線性的倒頻譜表示方法，和人類非線性的聽覺系統更為接近。例如：在音訊壓縮的技術中，便常常使用梅爾倒頻譜來處理。

梅爾倒頻譜係數通常是用以下方法得到的：^[1]^[2]

將一訊號進行傅利葉轉換
利用三角窗函式（triangular overlapping window），將頻譜對映（mapping）至梅爾刻度
取對數
取離散餘弦轉換
MFCC是轉換後的頻譜

取得梅爾倒頻譜的方法眾多，上述只是其中一種。

另外，ETSI在2000年左右有定義一套專為行動電話設計的梅爾倒頻譜係數演算法。

應用

梅爾倒頻譜係數通常可以用於作為語音辨識系統中的特徵質觀察，例如：可以自動辨認一個人透過電話說的數字。梅爾倒頻譜係數通常也可以作為聲紋辨識（Speaker Recognition），也就是、用來辨識某段語音訊號的發話者是誰的技術。

梅爾倒頻譜係數在近年來於音樂分類（music genre classification）相關應用的領域也逐漸嶄露頭角，例如尋找一段音樂的相似程度等。 ^[3]

語音辨識

梅爾頻率倒譜係數MFCC和感知線性預測PLP：不同於LPC等通過對人的發聲機理的研究而得到的聲學特徵，Mel倒譜係數MFCC和感知線性預測PLP是受人的聽覺系統研究成果推動而導出的聲學特徵。對人的聽覺機理的研究發現，當兩個頻率相近的音調同時發出時，人只能聽到一個音調。臨界帶寬指的就是這樣一種令人的主觀感覺發生突變的帶寬邊界，當兩個音調的頻率差小於臨界帶寬時，人就會把兩個音調聽成一個，這稱之為遮蔽效應。Mel刻度是對這一臨界帶寬的度量方法之一。 MFCC的計算首先用FFT將時域訊號轉化成頻域，之後對其對數能量譜用依照Mel刻度分布的三角濾波器組進行卷積，最後對各個濾波器的輸出構成的向量進行離散餘弦變換DCT，取前N個係數。PLP仍用德賓法去計算LPC參數，但在計算自相關參數時用的也是對聽覺激勵的對數能量譜進行DCT的方法。

雜訊

梅爾倒頻譜係數並非相當穩定，在計算當中，一組係數其實相當容易受到外加的雜訊影響；為了對抗雜訊，通常會將梅爾倒頻譜係數在語音辨認上進行正規化（normalization）的動作，以減少雜訊造成的影響。

另外，有些研究者會將梅爾倒頻譜係數基礎的演算法設計的更加頑強，例如：在進行餘弦轉換前增加對數化梅爾係數的能量值至一個合適的範圍，以減少諸如雜訊等低能量項對於整個係數結果的影響。

歷史

一般認為Paul Mermelstein^[4]^[5] 是主要致力於發展梅爾倒頻譜的人，然而 Mermelstein 本人卻將主要的概念功勞歸給 Bridle 和 Brown^[6] for the idea:

Bridle 和 Brown 運用了一組十九個、由餘弦轉換導出的頻譜型的係數，轉換的輸入值是訊號在一組在頻帶上有非均勻間隔分布的帶通濾波器後的輸出。
濾波器的間隔是呈現對數分布的；因此，一般稱之為梅爾式的導頻譜係數^[4]

通常此兩組起源都會被人當作參照使用。

另外，許多作者包括Mermelstein都認為，梅爾倒頻譜中這樣以頻譜為基準的餘弦轉換函式，非常接近早期用於語音表徵和辨認、對對數化頻譜進型的主成分分析；關於這部分相關的資訊，可參考Pols和它同事的研究。^[7]^[8]

係數推導

1. 對該訊號做傅立葉變換

$X[k]=FT{x[n]}$

2. 根據下面公式算出Y[m]

$Y[m]=\log \left(\sum _{k=f_{m-1}}^{f_{m+1}}\left|X[k]\right|^{2}B_{m}[k]\right)$

其中 $B_{m}[k]$ 是梅爾頻率倒頻譜的遮罩

$B_{m}[k]={\begin{cases}0&{\mbox{for }}k<f_{m-1}{\mbox{ and }}k>f_{m+1}\\{\cfrac {k-f_{m-1}}{f_{m}-f_{m-1}}}&{\mbox{for }}f_{m-1}\leq k\leq f_{m}\\{\cfrac {f_{m+1}-k}{f_{m+1}-f_{m}}}&{\mbox{for }}f_{m}\leq k\leq f_{m+1}\end{cases}}$

3.對Y[m]做IDCT得 $c_{x}[n]$ ，因為Y[m]是偶函式,故用IDCT(反離散餘弦變換)取代IDFT(反離散傅立葉變換)

$c_{x}[n]={\frac {1}{M}}\sum _{m=1}^{M}Y[m]cos\left({\cfrac {\pi n(m-1/2)}{M}}\right)$

參考

^ Min Xu; et al. HMM-based audio keyword generation. Kiyoharu Aizawa, Yuichi Nakamura, Shin'ichi Satoh (編). Advances in Multimedia Information Processing – PCM 2004: 5th Pacific Rim Conference on Multimedia (PDF). Springer. 2004 [2015-07-02]. ISBN 3-540-23985-5. （原始內容 (PDF)存檔於2007-05-10）.
^ Sahidullah, Md.; Saha, Goutam. Design, analysis and experimental evaluation of block based transformation in MFCC computation for speaker recognition. Speech Communication. May 2012, 54 (4): 543–565 [2015-07-02]. doi:10.1016/j.specom.2011.11.004. （原始內容存檔於2015-09-24）.
^ Meinard Müller. Information Retrieval for Music and Motion. Springer. 2007: 65. ISBN 978-3-540-74047-6.
^ ^4.0 ^4.1 P. Mermelstein (1976), "Distance measures for speech recognition, psychological and instrumental," in Pattern Recognition and Artificial Intelligence, C. H. Chen, Ed., pp. 374–388. Academic, New York.
^ S.B. Davis, and P. Mermelstein (1980), "Comparison of Parametric Representations for Monosyllabic Word Recognition in Continuously Spoken Sentences," in IEEE Transactions on Acoustics, Speech, and Signal Processing, 28(4), pp. 357–366.
^ J. S. Bridle and M. D. Brown (1974), "An Experimental Automatic Word-Recognition System", JSRU Report No. 1003, Joint Speech Research Unit, Ruislip, England.
^ L. C. W. Pols (1966), "Spectral Analysis and Identification of Dutch Vowels in Monosyllabic Words," Doctoral dissertion, Free University, Amsterdam, The Netherlands
^ R. Plomp, L. C. W. Pols, and J. P. van de Geer (1967). "Dimensional analysis of vowel spectra （頁面存檔備份，存於網際網路檔案館）." J. Acoustical Society of America, 41(3):707–712.

[1] Min Xu; et al. HMM-based audio keyword generation. Kiyoharu Aizawa, Yuichi Nakamura, Shin'ichi Satoh (編). Advances in Multimedia Information Processing – PCM 2004: 5th Pacific Rim Conference on Multimedia (PDF). Springer. 2004 [2015-07-02]. ISBN 3-540-23985-5. （原始內容 (PDF)存檔於2007-05-10）.

[2] Sahidullah, Md.; Saha, Goutam. Design, analysis and experimental evaluation of block based transformation in MFCC computation for speaker recognition. Speech Communication. May 2012, 54 (4): 543–565 [2015-07-02]. doi:10.1016/j.specom.2011.11.004. （原始內容存檔於2015-09-24）.

[3] Meinard Müller. Information Retrieval for Music and Motion. Springer. 2007: 65. ISBN 978-3-540-74047-6.

[merm76-4] 4.0 ^4.1 P. Mermelstein (1976), "Distance measures for speech recognition, psychological and instrumental," in Pattern Recognition and Artificial Intelligence, C. H. Chen, Ed., pp. 374–388. Academic, New York.

[merm80-5] S.B. Davis, and P. Mermelstein (1980), "Comparison of Parametric Representations for Monosyllabic Word Recognition in Continuously Spoken Sentences," in IEEE Transactions on Acoustics, Speech, and Signal Processing, 28(4), pp. 357–366.

[6] J. S. Bridle and M. D. Brown (1974), "An Experimental Automatic Word-Recognition System", JSRU Report No. 1003, Joint Speech Research Unit, Ruislip, England.

[7] L. C. W. Pols (1966), "Spectral Analysis and Identification of Dutch Vowels in Monosyllabic Words," Doctoral dissertion, Free University, Amsterdam, The Netherlands

[8] R. Plomp, L. C. W. Pols, and J. P. van de Geer (1967). "Dimensional analysis of vowel spectra （頁面存檔備份，存於網際網路檔案館）." J. Acoustical Society of America, 41(3):707–712.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]