深度學習語音合成

深度學習語音合成深度神經網絡(DNN)從文本(TTS)或頻譜(聲碼器)生成人工語音。DNN使用大量錄製語音進行訓練,若是TTS系統,則要使用相關標籤和/或輸入文本。

有些基於DNN的語音合成器已經接近人聲的自然度。

表述

編輯

給定輸入文本或語言單位序列 ,目標語音 可如下求得

 

其中 是模型參數。

一般來說輸入文本會先傳給聲學特徵生成器,聲學特徵再傳給神經聲碼器。對前者,損失函數通常是L1或L2損失,它們施加了約束條件:輸出必須遵循高斯分布或拉普拉斯分布。在實際應用中,由於人聲頻率約在300到4000 Hz之間,因此損失函數會對這一範圍有更多懲罰:

 

其中 是人聲頻段的損耗, 是0.5附近的純量。聲學特徵通常是梅爾刻度時頻譜,捕捉了語音信號的時域關係,因此足夠輸出智能輸出。用於語音識別的梅爾倒頻譜特徵信息太少,不適合用於語音合成。

簡史

編輯

2016年9月,DeepMind推出了基於原始音頻波形的深度生成模型WaveNet,證明基於深度學習的模型能對原始波形進行建模,並從時頻譜梅爾時頻譜等聲學特徵生成語音。WaveNet最初被認為計算成本高、速度慢,無法用於當時的消費類產品,但一年後,DeepMind推出了「並行WaveNet」,生成速度比原模型快一千倍。[1]

2017 年初,Mila提出了char2wav頁面存檔備份,存於網際網路檔案館),一種以端到端方法生產原始波形的模型。同年,谷歌Facebook分別推出了Tacotron頁面存檔備份,存於網際網路檔案館)和VoiceLoop頁面存檔備份,存於網際網路檔案館),直接從輸入文本生成聲學特徵;幾個月後,谷歌又提出了Tacotron2頁面存檔備份,存於網際網路檔案館),將WaveNet聲碼器與修改後的Tacotron架構相結合,進行端到端語音合成。Tacotron2可以生成接近人聲的高質量語音。那時起,端到端方法成了最熱門的研究課題,世界各地的許多研究人員開始注意到端到端語音合成的強大性能。[2][3]

半監督學習

編輯

目前,自監督學習因能更好利用無標註數據而備受關注。研究表明,[4][5]在自監督損失的幫助下,對配對數據的需求會減少。

零樣本語者調適

編輯

零樣本語者調適很有前景,因為一個模型就能生成具有各種風格和特徵的語音。2018年6月,谷歌提出使用預訓練語者驗證模型作為語者編碼器,提取語者嵌入。[6]然後,語者編碼器成為神經TTS模型的一部分,可以確定輸出語音的風格和特徵。這表明,只用一個模型就能生成多種風格的語音。

神經聲碼器

編輯
使用HiFi-GAN神經聲碼器的語音合成示例

在基於深度學習的語音合成中,神經聲碼器在根據聲學特徵生成高質量語音方面發揮重要作用。2016年提出的WaveNet模型在語音質量方面表現出色。Wavenet將波形 的聯合概率因子化為為條件概率的乘積,如下所示

 

其中 是模型參數,包括許多擴張卷積層。因此,每個音頻樣本 都以之前所有時間步的樣本為條件。然而,WaveNet的自回歸性質使得推理過程非常緩慢。為解決這個問題,提出了並行WaveNet[7],是一種基於逆自回歸流的模型,通過知識蒸餾和預先訓練好的教師WaveNet模型一起訓練出來。由於這種模型在推理時不是自回歸的,因此推理速度比實時推理更快。同時,Nvidia提出了基於流的WaveGlow[8]模型,生成語音的速度也比實時模型快。不過,並行WaveNet雖然推理速度快,但也有需要預訓練WaveNet模型的局限性,因此在計算設備有限的情況下,WaveGlow需要數周時間才能收斂。並行WaveGAN解決了這一問題,[9]通過多解析度頻譜損失和GAN策略學習生成語音。

參考文獻

編輯
  1. ^ 引用錯誤:沒有為名為deepmind的參考文獻提供內容
  2. ^ Hsu, Wei-Ning. Hierarchical Generative Modeling for Controllable Speech Synthesis. 2018. arXiv:1810.07217  [cs.CL]. 
  3. ^ Habib, Raza. Semi-Supervised Generative Modeling for Controllable Speech Synthesis. 2019. arXiv:1910.01709  [cs.CL]. 
  4. ^ Chung, Yu-An. Semi-Supervised Training for Improving Data Efficiency in End-to-End Speech Synthesis. 2018. arXiv:1808.10128  [cs.CL]. 
  5. ^ Ren, Yi. Almost Unsupervised Text to Speech and Automatic Speech Recognition. 2019. arXiv:1905.06791  [cs.CL]. 
  6. ^ Jia, Ye. Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis. 2018. arXiv:1806.04558  [cs.CL]. 
  7. ^ van den Oord, Aaron. Parallel WaveNet: Fast High-Fidelity Speech Synthesis. 2018. arXiv:1711.10433  [cs.CL]. 
  8. ^ Prenger, Ryan. WaveGlow: A Flow-based Generative Network for Speech Synthesis. 2018. arXiv:1811.00002  [cs.SD]. 
  9. ^ Yamamoto, Ryuichi. Parallel WaveGAN: A fast waveform generation model based on generative adversarial networks with multi-resolution spectrogram. 2019. arXiv:1910.11480  [eess.AS].