深度學習語音合成

深度學習語音合成用深度神經網絡（DNN）從文本（TTS）或頻譜（聲碼器）生成人工語音。DNN使用大量錄製語音進行訓練，若是TTS系統，則要使用相關標籤和/或輸入文本。

有些基於DNN的語音合成器已經接近人聲的自然度。

表述

給定輸入文本或語言單位序列 $Y$ ，目標語音 $X$ 可如下求得

$X=\arg \max P(X|Y,\theta )$

其中 $\theta$ 是模型參數。

一般來說輸入文本會先傳給聲學特徵生成器，聲學特徵再傳給神經聲碼器。對前者，損失函數通常是L1或L2損失，它們施加了約束條件：輸出必須遵循高斯分佈或拉普拉斯分佈。在實際應用中，由於人聲頻率約在300到4000 Hz之間，因此損失函數會對這一範圍有更多懲罰：

$loss=\alpha {\text{loss}}_{\text{human}}+(1-\alpha ){\text{loss}}_{\text{other}}$

其中 ${\text{loss}}_{\text{human}}$ 是人聲頻段的損耗， $\alpha$ 是0.5附近的純量。聲學特徵通常是梅爾刻度的時頻譜，捕捉了語音信號的時域關係，因此足夠輸出智能輸出。用於語音識別的梅爾倒頻譜特徵信息太少，不適合用於語音合成。

簡史

2016年9月，DeepMind推出了基於原始音頻波形的深度生成模型WaveNet，證明基於深度學習的模型能對原始波形進行建模，並從時頻譜梅爾時頻譜等聲學特徵生成語音。WaveNet最初被認為計算成本高、速度慢，無法用於當時的消費類產品，但一年後，DeepMind推出了「並行WaveNet」，生成速度比原模型快一千倍。^[1]

2017 年初，Mila提出了char2wav （頁面存檔備份，存於互聯網檔案館），一種以端到端方法生產原始波形的模型。同年，谷歌和Facebook分別推出了Tacotron （頁面存檔備份，存於互聯網檔案館）和VoiceLoop （頁面存檔備份，存於互聯網檔案館），直接從輸入文本生成聲學特徵；幾個月後，谷歌又提出了Tacotron2 （頁面存檔備份，存於互聯網檔案館），將WaveNet聲碼器與修改後的Tacotron架構相結合，進行端到端語音合成。Tacotron2可以生成接近人聲的高質量語音。那時起，端到端方法成了最熱門的研究課題，世界各地的許多研究人員開始注意到端到端語音合成的強大性能。^[2]^[3]

半監督學習

目前，自監督學習因能更好利用無標註數據而備受關注。研究表明，^[4]^[5]在自監督損失的幫助下，對配對數據的需求會減少。

零樣本語者調適

零樣本語者調適很有前景，因為一個模型就能生成具有各種風格和特徵的語音。2018年6月，谷歌提出使用預訓練語者驗證模型作為語者編碼器，提取語者嵌入。^[6]然後，語者編碼器成為神經TTS模型的一部分，可以確定輸出語音的風格和特徵。這表明，只用一個模型就能生成多種風格的語音。

神經聲碼器

使用HiFi-GAN神經聲碼器的語音合成示例

在基於深度學習的語音合成中，神經聲碼器在根據聲學特徵生成高質量語音方面發揮重要作用。2016年提出的WaveNet模型在語音質量方面表現出色。Wavenet將波形 $\mathbf {x} =\{x_{1},...,x_{T}\}$ 的聯合概率因子化為為條件概率的乘積，如下所示

$p_{\theta }(\mathbf {x} )=\prod _{t=1}^{T}p(x_{t}|x_{1},...,x_{t-1})$

其中 $\theta$ 是模型參數，包括許多擴張卷積層。因此，每個音頻樣本 $x_{t}$ 都以之前所有時間步的樣本為條件。然而，WaveNet的自回歸性質使得推理過程非常緩慢。為解決這個問題，提出了並行WaveNet^[7]，是一種基於逆自回歸流的模型，通過知識蒸餾和預先訓練好的教師WaveNet模型一起訓練出來。由於這種模型在推理時不是自回歸的，因此推理速度比實時推理更快。同時，Nvidia提出了基於流的WaveGlow^[8]模型，生成語音的速度也比實時模型快。不過，並行WaveNet雖然推理速度快，但也有需要預訓練WaveNet模型的局限性，因此在計算設備有限的情況下，WaveGlow需要數周時間才能收斂。並行WaveGAN解決了這一問題，^[9]通過多解像度頻譜損失和GAN策略學習生成語音。

Synthesis example

The Chaos (short version) synthesized by VITS, a research deep-learning-based end-to-end text-to-speech method, using the LJ Speech dataset.

播放此檔案有問題？請參見媒體幫助。

參考文獻

^ 引用錯誤：沒有為名為deepmind的參考文獻提供內容
^ Hsu, Wei-Ning. Hierarchical Generative Modeling for Controllable Speech Synthesis. 2018. arXiv:1810.07217  [cs.CL].
^ Habib, Raza. Semi-Supervised Generative Modeling for Controllable Speech Synthesis. 2019. arXiv:1910.01709  [cs.CL].
^ Chung, Yu-An. Semi-Supervised Training for Improving Data Efficiency in End-to-End Speech Synthesis. 2018. arXiv:1808.10128  [cs.CL].
^ Ren, Yi. Almost Unsupervised Text to Speech and Automatic Speech Recognition. 2019. arXiv:1905.06791  [cs.CL].
^ Jia, Ye. Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis. 2018. arXiv:1806.04558  [cs.CL].
^ van den Oord, Aaron. Parallel WaveNet: Fast High-Fidelity Speech Synthesis. 2018. arXiv:1711.10433  [cs.CL].
^ Prenger, Ryan. WaveGlow: A Flow-based Generative Network for Speech Synthesis. 2018. arXiv:1811.00002  [cs.SD].
^ Yamamoto, Ryuichi. Parallel WaveGAN: A fast waveform generation model based on generative adversarial networks with multi-resolution spectrogram. 2019. arXiv:1910.11480  [eess.AS].

[deepmind-1] 引用錯誤：沒有為名為deepmind的參考文獻提供內容

[2] Hsu, Wei-Ning. Hierarchical Generative Modeling for Controllable Speech Synthesis. 2018. arXiv:1810.07217  [cs.CL].

[3] Habib, Raza. Semi-Supervised Generative Modeling for Controllable Speech Synthesis. 2019. arXiv:1910.01709  [cs.CL].

[4] Chung, Yu-An. Semi-Supervised Training for Improving Data Efficiency in End-to-End Speech Synthesis. 2018. arXiv:1808.10128  [cs.CL].

[5] Ren, Yi. Almost Unsupervised Text to Speech and Automatic Speech Recognition. 2019. arXiv:1905.06791  [cs.CL].

[6] Jia, Ye. Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis. 2018. arXiv:1806.04558  [cs.CL].

[7] van den Oord, Aaron. Parallel WaveNet: Fast High-Fidelity Speech Synthesis. 2018. arXiv:1711.10433  [cs.CL].

[8] Prenger, Ryan. WaveGlow: A Flow-based Generative Network for Speech Synthesis. 2018. arXiv:1811.00002  [cs.SD].

[9] Yamamoto, Ryuichi. Parallel WaveGAN: A fast waveform generation model based on generative adversarial networks with multi-resolution spectrogram. 2019. arXiv:1910.11480  [eess.AS].

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]