梅尔频率倒谱系数

在声音处理领域中，梅尔频率倒谱(Mel-Frequency Cepstrum)是基于声音频率的非线性梅尔刻度(mel scale)的对数能量频谱的线性变换。

梅尔频率倒谱系数 (Mel-Frequency Cepstral Coefficients，MFCCs)就是组成梅尔频率倒谱的系数。它衍生自音讯片段的倒频谱(cepstrum)。倒谱和梅尔频率倒谱的区别在于，梅尔频率倒谱的频带划分是在梅尔刻度上等距划分的，它比用于正常的对数倒频谱中的线性间隔的频带更能近似人类的听觉系统。这样的非线性表示，可以在多个领域中使声音信号有更好的表示。例如在音讯压缩中。

梅尔频率倒谱系数（MFCC）广泛被应用于语音识别的功能。他们由Davis和Mermelstein在1980年代提出，并在其后持续是最先进的技术之一。在MFCC之前，线性预测系数（LPCS）和线性预测倒谱系数（LPCCs）是自动语音识别的的主流方法。

MFCC通常有以下之过程:^[1]^[2]

将一段语音信号分解为多个讯框。
将语音信号预强化，通过一个高通滤波器。
进行傅立叶变换，将信号变换至频域。
将每个讯框获得的频谱通过梅尔滤波器(三角重叠窗口)，得到梅尔刻度。
在每个梅尔刻度上提取对数能量。
对上面获得的结果进行离散余弦变换，变换到倒频谱域。
MFCC就是这个倒频谱图的幅度(amplitudes)。一般使用12个系数，与讯框能量叠加得13维的系数。

MFCC的原理

声音信号是连续变化的，为了将连续变化信号简化，我们假设在一个短时间尺度内，音频信号不发生改变。因此将信号以多个采样点集合成一个单位，称为'''讯框'''。一个讯框多为20-40毫秒，如果讯框长度更短，那每个讯框内的采样点将不足以做出可靠的频谱计算，但若长度太长，则每个讯框信号会变化太大。

预强化的目的就是为了消除发声过程中，声带和嘴唇造成的效应，来补偿语音信号受到发音系统所压抑的高频部分。并且能突显高频的共振峰。

由于信号在时域上的变化通常很难看出信号的特性，所以通常透过傅里叶变换将它变换成频域上的能量分布来观察，不同的能量分布，就能代表不同语音的特性。

由于能量频谱中还存在大量的无用讯息，尤其人耳无法分辨高频的频率变化，因此让频谱通过梅尔滤波器。 梅尔滤波器，也就是一组20个非线性分布的三角带通滤波器（Triangular Bandpass Filters），能求得每一个滤波器输出的对数能量。必须注意的是：这 20 个三角带通滤波器在'''梅尔刻度'''的频率上是平均分布的。梅尔频率代表一般人耳对于频率的感受度，由此也可以看出人耳对于频率 f 的感受是呈对数变化的。

http://i.stack.imgur.com/YUH48.gif （页面存档备份，存于互联网档案馆）

最后的步骤是计算对数滤波器的能量的离散傅里叶反变换，在此相当于离散余弦反变换(IDCT)。值得注意的是，虽然通常的会有24-26个系数，但我们只保留前12个系数。这是因为丢弃高倒频域值的DCT系数，代表一个类似低通滤波器的概念，可以使信号平滑化，能增进语音处理的性能。

^[3] ^[4] ^[5]

在此过程中可以有很多变化，例如，映射时的窗口的形状和间距。^[6] The 欧洲电信标准协会在2000年初定义了一个可以用在移动电话上的标准MFCC算法.^[7]

参考

^ Min Xu; et al. HMM-based audio keyword generation. Kiyoharu Aizawa, Yuichi Nakamura, Shin'ichi Satoh (编). Advances in Multimedia Information Processing - PCM 2004: 5th Pacific Rim Conference on Multimedia (PDF). Springer. 2004 [2013-04-26]. ISBN 3-540-23985-5. （原始内容 (PDF)存档于2007-05-10）.
^ Sahidullah, Md.; Saha, Goutam. Design, analysis and experimental evaluation of block based transformation in MFCC computation for speaker recognition. Speech Communication. May 2012, 54 (4): 543–565 [2013-04-26]. doi:10.1016/j.specom.2011.11.004. （原始内容存档于2015-09-24）.
^ 存档副本. [2014-06-27]. （原始内容存档于2015-09-21）.
^ 存档副本. [2014-06-27]. （原始内容存档于2014-06-27）.
^ http://djj.ee.ntu.edu.tw/ADSP_tutorial_D98921028.pdf^{[永久失效链接]}
^ Fang Zheng, Guoliang Zhang and Zhanjiang Song (2001), "Comparison of Different Implementations of MFCC （页面存档备份，存于互联网档案馆）," J. Computer Science & Technology, 16(6): 582–589.
^ European Telecommunications Standards Institute (2003), Speech Processing, Transmission and Quality Aspects (STQ); Distributed speech recognition; Front-end feature extraction algorithm; Compression algorithms （页面存档备份，存于互联网档案馆）. Technical standard ES 201 108, v1.1.3.

详细推导

1.对该信号做傅里叶变换
X[k]=FT{x[n]}
2.根据下面公式算出Y[m]
$Y[m]=\log \left(\sum _{k=f_{m-1}}^{f_{m+1}}\left|X[k]\right|^{2}B_{m}[k]\right)$

其中 $B_{m}[k]$ 是梅尔频率倒频谱的遮罩

梅尔频率倒频谱的遮罩

$B_{m}[k]={\begin{cases}0&{\mbox{for }}k<f_{m-1}{\mbox{ and }}k>f_{m+1}\\{\cfrac {k-f_{m-1}}{f_{m}-f_{m-1}}}&{\mbox{for }}f_{m-1}\leq k\leq f_{m}\\{\cfrac {f_{m+1}-k}{f_{m+1}-f_{m}}}&{\mbox{for }}f_{m}\leq k\leq f_{m+1}\end{cases}}$

3.对Y[m]做IDCT得 $c_{x}[n]$
因为Y[m]是偶函数,故用IDCT(反离散余弦变换)取代IDFT(反离散傅里叶变换)
$c_{x}[n]={\frac {1}{M}}\sum _{m=1}^{M}Y[m]cos\left({\cfrac {\pi n(m-1/2)}{M}}\right)$

与原倒频谱的差异
一.log里面因为使用了sum,故等于0的几率变小
二.避免了相位的问题
三.使用IDCT取代IDFT,减少了运算量
四. $B_{m}[k]$ 随着频率的增加而增宽,该特性符合人类听觉,更适合用来描述语音特征

应用

MFCC主要作为语音识别系统中的特征，这样的系统可以自动识别语音中的数字内容。MFCC同样也用于说话人识别（英语：Speaker Recognition），该技术尝试通过语音该鉴别说话人。^[1]

MFCC也被用于语音信息检索（英语：music information retrieval）领域，如流派分类(genre classification)、音频相似性计算等。^[2]

比起倒频谱,梅尔倒频谱更接近人耳对于语音的区别性(因为遮罩 $B[k]$ )
用 $c_{x}[1],c_{x}[2],...,c_{x}[13]$ ,MFCCs的前13项足以描述语音特征

噪声的敏感性

MFCC特征在加性噪声的情况下并不稳定，因此在语音识别系统中通常要对其进行归一化处理(normalise)以降低噪声的影响。一些研究人员对MFCC算法进行修改以提升其强健性，如在进行DCT之前将log-mel-amplitudes提升到一个合适的能量(2到3之间)，以此来降低低能量成分的影响.^[3]

参考文献

^ T. Ganchev, N. Fakotakis, and G. Kokkinakis (2005), "Comparative evaluation of various MFCC implementations on the speaker verification task 互联网档案馆的存档，存档日期2011-07-17.," in 10th International Conference on Speech and Computer (SPECOM 2005), Vol. 1, pp. 191–194.
^ Meinard Müller. Information Retrieval for Music and Motion. Springer. 2007: 65. ISBN 978-3-540-74047-6.
^ V. Tyagi and C. Wellekens (2005),
On desensitizing the Mel-Cepstrum to spurious spectral components for Robust Speech Recognition
, in Acoustics, Speech, and Signal Processing, 2005. Proceedings. (ICASSP ’05). IEEE International Conference on, vol. 1, pp. 529–532.

外部链接

A tutorial on MFCCs for Automatic Speech Recognition （页面存档备份，存于互联网档案馆）

[1] Min Xu; et al. HMM-based audio keyword generation. Kiyoharu Aizawa, Yuichi Nakamura, Shin'ichi Satoh (编). Advances in Multimedia Information Processing - PCM 2004: 5th Pacific Rim Conference on Multimedia (PDF). Springer. 2004 [2013-04-26]. ISBN 3-540-23985-5. （原始内容 (PDF)存档于2007-05-10）.

[2] Sahidullah, Md.; Saha, Goutam. Design, analysis and experimental evaluation of block based transformation in MFCC computation for speaker recognition. Speech Communication. May 2012, 54 (4): 543–565 [2013-04-26]. doi:10.1016/j.specom.2011.11.004. （原始内容存档于2015-09-24）.

[3] 存档副本. [2014-06-27]. （原始内容存档于2015-09-21）.

[4] 存档副本. [2014-06-27]. （原始内容存档于2014-06-27）.

[5] ttp://djj.ee.ntu.edu.tw/ADSP_tutorial_D98921028.pdf^{[永久失效链接]}

[6] Fang Zheng, Guoliang Zhang and Zhanjiang Song (2001), "Comparison of Different Implementations of MFCC （页面存档备份，存于互联网档案馆）," J. Computer Science & Technology, 16(6): 582–589.

[etsi01-7] European Telecommunications Standards Institute (2003), Speech Processing, Transmission and Quality Aspects (STQ); Distributed speech recognition; Front-end feature extraction algorithm; Compression algorithms （页面存档备份，存于互联网档案馆）. Technical standard ES 201 108, v1.1.3.

[8] T. Ganchev, N. Fakotakis, and G. Kokkinakis (2005), "Comparative evaluation of various MFCC implementations on the speaker verification task 互联网档案馆的存档，存档日期2011-07-17.," in 10th International Conference on Speech and Computer (SPECOM 2005), Vol. 1, pp. 191–194.

[9] Meinard Müller. Information Retrieval for Music and Motion. Springer. 2007: 65. ISBN 978-3-540-74047-6.

[10] V. Tyagi and C. Wellekens (2005),
On desensitizing the Mel-Cepstrum to spurious spectral components for Robust Speech Recognition
, in Acoustics, Speech, and Signal Processing, 2005. Proceedings. (ICASSP ’05). IEEE International Conference on, vol. 1, pp. 529–532.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[1]

[2]

[3]