梅尔倒频谱

在信号处理中，梅尔倒频谱（Mel-Frequency Cepstrum, MFC）系一个可用来代表短期音频的频谱，其原理基于用非线性的梅尔刻度（mel scale）表示的对数频谱及其线性余弦转换（linear cosine transform）上。

梅尔频率倒谱系数（Mel-Frequency Cepstral Coefficients, MFCC）是一组用来建立梅尔倒频谱的关键系数。由音乐信号当中的片段，可以得到一组足以代表此音乐信号之倒频谱（Cepstrum），而梅尔倒频谱系数即是从这个倒频谱中推得的倒频谱（也就是频谱的频谱）。与一般的倒频谱不同，梅尔倒频谱最大的特色在于，于梅尔倒频谱上的频带是均匀分布于梅尔刻度上的，也就是说，这样的频带相较于一般所看到、线性的倒频谱表示方法，和人类非线性的听觉系统更为接近。例如：在音频压缩的技术中，便常常使用梅尔倒频谱来处理。

梅尔倒频谱系数通常是用以下方法得到的：^[1]^[2]

将一信号进行傅里叶转换
利用三角窗函数（triangular overlapping window），将频谱映射（mapping）至梅尔刻度
取对数
取离散余弦转换
MFCC是转换后的频谱

获取梅尔倒频谱的方法众多，上述只是其中一种。

另外，ETSI在2000年左右有定义一套专为移动电话设计的梅尔倒频谱系数算法。

应用

梅尔倒频谱系数通常可以用于作为语音识别系统中的特征质观察，例如：可以自动辨认一个人透过电话说的数字。梅尔倒频谱系数通常也可以作为声纹识别（Speaker Recognition），也就是、用来识别某段语音频号的发话者是谁的技术。

梅尔倒频谱系数在近年来于音乐分类（music genre classification）相关应用的领域也逐渐崭露头角，例如查找一段音乐的相似程度等。 ^[3]

语音识别

梅尔频率倒谱系数MFCC和感知线性预测PLP：不同于LPC等通过对人的发声机理的研究而得到的声学特征，Mel倒谱系数MFCC和感知线性预测PLP是受人的听觉系统研究成果推动而导出的声学特征。对人的听觉机理的研究发现，当两个频率相近的音调同时发出时，人只能听到一个音调。临界带宽指的就是这样一种令人的主观感觉发生突变的带宽边界，当两个音调的频率差小于临界带宽时，人就会把两个音调听成一个，这称之为屏蔽效应。Mel刻度是对这一临界带宽的度量方法之一。 MFCC的计算首先用FFT将时域信号转化成频域，之后对其对数能量谱用依照Mel刻度分布的三角滤波器组进行卷积，最后对各个滤波器的输出构成的向量进行离散余弦变换DCT，取前N个系数。PLP仍用德宾法去计算LPC参数，但在计算自相关参数时用的也是对听觉激励的对数能量谱进行DCT的方法。

杂讯

梅尔倒频谱系数并非相当稳定，在计算当中，一组系数其实相当容易受到外加的杂讯影响；为了对抗杂讯，通常会将梅尔倒频谱系数在语音辨认上进行正规化（normalization）的动作，以减少杂讯造成的影响。

另外，有些研究者会将梅尔倒频谱系数基础的算法设计的更加顽强，例如：在进行馀弦转换前增加对数化梅尔系数的能量值至一个合适的范围，以减少诸如杂讯等低能量项对于整个系数结果的影响。

历史

一般认为Paul Mermelstein^[4]^[5] 是主要致力于发展梅尔倒频谱的人，然而 Mermelstein 本人却将主要的概念功劳归给 Bridle 和 Brown^[6] for the idea:

Bridle 和 Brown 运用了一组十九个、由余弦转换导出的频谱型的系数，转换的输入值是信号在一组在频带上有非均匀间隔分布的带通滤波器后的输出。
滤波器的间隔是呈现对数分布的；因此，一般称之为梅尔式的导频谱系数^[4]

通常此两组起源都会被人当作引用使用。

另外，许多作者包括Mermelstein都认为，梅尔倒频谱中这样以频谱为基准的余弦转换函数，非常接近早期用于语音表征和辨认、对对数化频谱进型的主成分分析；关于这部分相关的资讯，可参考Pols和它同事的研究。^[7]^[8]

系数推导

1. 对该信号做傅立叶变换

$X[k]=FT{x[n]}$

2. 根据下面公式算出Y[m]

$Y[m]=\log \left(\sum _{k=f_{m-1}}^{f_{m+1}}\left|X[k]\right|^{2}B_{m}[k]\right)$

其中 $B_{m}[k]$ 是梅尔频率倒频谱的遮罩

$B_{m}[k]={\begin{cases}0&{\mbox{for }}k<f_{m-1}{\mbox{ and }}k>f_{m+1}\\{\cfrac {k-f_{m-1}}{f_{m}-f_{m-1}}}&{\mbox{for }}f_{m-1}\leq k\leq f_{m}\\{\cfrac {f_{m+1}-k}{f_{m+1}-f_{m}}}&{\mbox{for }}f_{m}\leq k\leq f_{m+1}\end{cases}}$

3.对Y[m]做IDCT得 $c_{x}[n]$ ，因为Y[m]是偶函数,故用IDCT(反离散余弦变换)取代IDFT(反离散傅立叶变换)

$c_{x}[n]={\frac {1}{M}}\sum _{m=1}^{M}Y[m]cos\left({\cfrac {\pi n(m-1/2)}{M}}\right)$

参考

^ Min Xu; et al. HMM-based audio keyword generation. Kiyoharu Aizawa, Yuichi Nakamura, Shin'ichi Satoh (编). Advances in Multimedia Information Processing – PCM 2004: 5th Pacific Rim Conference on Multimedia (PDF). Springer. 2004 [2015-07-02]. ISBN 3-540-23985-5. （原始内容 (PDF)存档于2007-05-10）.
^ Sahidullah, Md.; Saha, Goutam. Design, analysis and experimental evaluation of block based transformation in MFCC computation for speaker recognition. Speech Communication. May 2012, 54 (4): 543–565 [2015-07-02]. doi:10.1016/j.specom.2011.11.004. （原始内容存档于2015-09-24）.
^ Meinard Müller. Information Retrieval for Music and Motion. Springer. 2007: 65. ISBN 978-3-540-74047-6.
^ ^4.0 ^4.1 P. Mermelstein (1976), "Distance measures for speech recognition, psychological and instrumental," in Pattern Recognition and Artificial Intelligence, C. H. Chen, Ed., pp. 374–388. Academic, New York.
^ S.B. Davis, and P. Mermelstein (1980), "Comparison of Parametric Representations for Monosyllabic Word Recognition in Continuously Spoken Sentences," in IEEE Transactions on Acoustics, Speech, and Signal Processing, 28(4), pp. 357–366.
^ J. S. Bridle and M. D. Brown (1974), "An Experimental Automatic Word-Recognition System", JSRU Report No. 1003, Joint Speech Research Unit, Ruislip, England.
^ L. C. W. Pols (1966), "Spectral Analysis and Identification of Dutch Vowels in Monosyllabic Words," Doctoral dissertion, Free University, Amsterdam, The Netherlands
^ R. Plomp, L. C. W. Pols, and J. P. van de Geer (1967). "Dimensional analysis of vowel spectra （页面存档备份，存于互联网档案馆）." J. Acoustical Society of America, 41(3):707–712.

[1] Min Xu; et al. HMM-based audio keyword generation. Kiyoharu Aizawa, Yuichi Nakamura, Shin'ichi Satoh (编). Advances in Multimedia Information Processing – PCM 2004: 5th Pacific Rim Conference on Multimedia (PDF). Springer. 2004 [2015-07-02]. ISBN 3-540-23985-5. （原始内容 (PDF)存档于2007-05-10）.

[2] Sahidullah, Md.; Saha, Goutam. Design, analysis and experimental evaluation of block based transformation in MFCC computation for speaker recognition. Speech Communication. May 2012, 54 (4): 543–565 [2015-07-02]. doi:10.1016/j.specom.2011.11.004. （原始内容存档于2015-09-24）.

[3] Meinard Müller. Information Retrieval for Music and Motion. Springer. 2007: 65. ISBN 978-3-540-74047-6.

[merm76-4] 4.0 ^4.1 P. Mermelstein (1976), "Distance measures for speech recognition, psychological and instrumental," in Pattern Recognition and Artificial Intelligence, C. H. Chen, Ed., pp. 374–388. Academic, New York.

[merm80-5] S.B. Davis, and P. Mermelstein (1980), "Comparison of Parametric Representations for Monosyllabic Word Recognition in Continuously Spoken Sentences," in IEEE Transactions on Acoustics, Speech, and Signal Processing, 28(4), pp. 357–366.

[6] J. S. Bridle and M. D. Brown (1974), "An Experimental Automatic Word-Recognition System", JSRU Report No. 1003, Joint Speech Research Unit, Ruislip, England.

[7] L. C. W. Pols (1966), "Spectral Analysis and Identification of Dutch Vowels in Monosyllabic Words," Doctoral dissertion, Free University, Amsterdam, The Netherlands

[8] R. Plomp, L. C. W. Pols, and J. P. van de Geer (1967). "Dimensional analysis of vowel spectra （页面存档备份，存于互联网档案馆）." J. Acoustical Society of America, 41(3):707–712.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]