-
通过单调对齐搜索实现文本到语音生成的glow-tts流
资源介绍
Glow-TTS:通过单调对齐搜索生成文本到语音的生成流
金在贤,金成元,江Jung和尹旭
在我们最近的,我们提出了Glow-TTS:通过单调对齐搜索从文本到语音的生成流。
最近,已经提出了文本到语音(TTS)模型,例如FastSpeech和ParaNet,用于从文本中并行生成梅尔频谱图。 尽管具有优势,但是如果没有自回归TTS模型作为其外部调整器的指导,则无法训练并行TTS模型。 在这项工作中,我们提出了Glow-TTS,这是一种基于流的并行TTS生成模型,不需要任何外部对准器。 通过将流和动态编程的特性相结合,所提出的模型自行搜索文本和语音的潜在表示之间最可能的单调对齐方式。 我们证明,强制执行硬单调对齐方式可以使鲁棒的TTS泛化为长话,而使用生成流则可以实现快速,多样化和可控制的语音合成。 Glow-TTS在合成时具有可比较的语音质量,比自回归模型Tacotron 2快了一个数量级