深度学习语音合成

深度学习语音合成深度神经网络(DNN)从文本(TTS)或频谱(声码器)生成人工语音。DNN使用大量录制语音进行训练,若是TTS系统,则要使用相关标签和/或输入文本。

有些基于DNN的语音合成器已经接近人声的自然度。

表述

编辑

给定输入文本或语言单位序列 ,目标语音 可如下求得

 

其中 是模型参数。

一般来说输入文本会先传给声学特征生成器,声学特征再传给神经声码器。对前者,损失函数通常是L1或L2损失,它们施加了约束条件:输出必须遵循高斯分布或拉普拉斯分布。在实际应用中,由于人声频率约在300到4000 Hz之间,因此损失函数会对这一范围有更多惩罚:

 

其中 是人声频段的损耗, 是0.5附近的标量。声学特征通常是梅尔刻度时频谱,捕捉了语音信号的时域关系,因此足够输出智能输出。用于语音识别的梅尔倒频谱特征信息太少,不适合用于语音合成。

简史

编辑

2016年9月,DeepMind推出了基于原始音频波形的深度生成模型WaveNet,证明基于深度学习的模型能对原始波形进行建模,并从时频谱梅尔时频谱等声学特征生成语音。WaveNet最初被认为计算成本高、速度慢,无法用于当时的消费类产品,但一年后,DeepMind推出了“并行WaveNet”,生成速度比原模型快一千倍。[1]

2017 年初,Mila提出了char2wav页面存档备份,存于互联网档案馆),一种以端到端方法生产原始波形的模型。同年,谷歌Facebook分别推出了Tacotron页面存档备份,存于互联网档案馆)和VoiceLoop页面存档备份,存于互联网档案馆),直接从输入文本生成声学特征;几个月后,谷歌又提出了Tacotron2页面存档备份,存于互联网档案馆),将WaveNet声码器与修改后的Tacotron架构相结合,进行端到端语音合成。Tacotron2可以生成接近人声的高质量语音。那时起,端到端方法成了最热门的研究课题,世界各地的许多研究人员开始注意到端到端语音合成的强大性能。[2][3]

半监督学习

编辑

目前,自监督学习因能更好利用无标注数据而备受关注。研究表明,[4][5]在自监督损失的帮助下,对配对数据的需求会减少。

零样本语者调适

编辑

零样本语者调适很有前景,因为一个模型就能生成具有各种风格和特征的语音。2018年6月,谷歌提出使用预训练语者验证模型作为语者编码器,提取语者嵌入。[6]然后,语者编码器成为神经TTS模型的一部分,可以确定输出语音的风格和特征。这表明,只用一个模型就能生成多种风格的语音。

神经声码器

编辑
使用HiFi-GAN神经声码器的语音合成示例

在基于深度学习的语音合成中,神经声码器在根据声学特征生成高质量语音方面发挥重要作用。2016年提出的WaveNet模型在语音质量方面表现出色。Wavenet将波形 的联合概率因子化为为条件概率的乘积,如下所示

 

其中 是模型参数,包括许多扩张卷积层。因此,每个音频样本 都以之前所有时间步的样本为条件。然而,WaveNet的自回归性质使得推理过程非常缓慢。为解决这个问题,提出了并行WaveNet[7],是一种基于逆自回归流的模型,通过知识蒸馏和预先训练好的教师WaveNet模型一起训练出来。由于这种模型在推理时不是自回归的,因此推理速度比实时推理更快。同时,Nvidia提出了基于流的WaveGlow[8]模型,生成语音的速度也比实时模型快。不过,并行WaveNet虽然推理速度快,但也有需要预训练WaveNet模型的局限性,因此在计算设备有限的情况下,WaveGlow需要数周时间才能收敛。并行WaveGAN解决了这一问题,[9]通过多分辨率频谱损失和GAN策略学习生成语音。

参考文献

编辑
  1. ^ 引用错误:没有为名为deepmind的参考文献提供内容
  2. ^ Hsu, Wei-Ning. Hierarchical Generative Modeling for Controllable Speech Synthesis. 2018. arXiv:1810.07217  [cs.CL]. 
  3. ^ Habib, Raza. Semi-Supervised Generative Modeling for Controllable Speech Synthesis. 2019. arXiv:1910.01709  [cs.CL]. 
  4. ^ Chung, Yu-An. Semi-Supervised Training for Improving Data Efficiency in End-to-End Speech Synthesis. 2018. arXiv:1808.10128  [cs.CL]. 
  5. ^ Ren, Yi. Almost Unsupervised Text to Speech and Automatic Speech Recognition. 2019. arXiv:1905.06791  [cs.CL]. 
  6. ^ Jia, Ye. Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis. 2018. arXiv:1806.04558  [cs.CL]. 
  7. ^ van den Oord, Aaron. Parallel WaveNet: Fast High-Fidelity Speech Synthesis. 2018. arXiv:1711.10433  [cs.CL]. 
  8. ^ Prenger, Ryan. WaveGlow: A Flow-based Generative Network for Speech Synthesis. 2018. arXiv:1811.00002  [cs.SD]. 
  9. ^ Yamamoto, Ryuichi. Parallel WaveGAN: A fast waveform generation model based on generative adversarial networks with multi-resolution spectrogram. 2019. arXiv:1910.11480  [eess.AS].