LPCNet:由 DSP 加持的神经语音合成


LPCNet 是 Mozilla 新兴技术团队的一个新项目 - 一种高效的神经语音合成器,与之前的模型相比,其复杂性降低。像 WaveNet 这样的神经语音合成模型已经证明了其令人印象深刻的语音合成质量,但它们的计算复杂性使得它们难以实时使用,尤其是在手机上。与 RNNoise 项目类似,我们使用 LPCNet 的解决方案是结合深度学习和数字信号处理 (DSP) 技术。

LPCNet samples screenshot

图 1:演示 LPCNet 合成语音质量的演示播放器截图。

LPCNet 有助于提高文本到语音 (TTS)、低比特率语音编码、时间拉伸等方面的质量。您可以在我们的 LPCNet 演示页面 中亲自听听区别,其中 LPCNet 和 WaveNet 语音是在相同复杂度下生成的。该演示还解释了 LPCNet 的动机,展示了它能实现什么,并探索了它的可能应用。

您可以在 这篇论文 中找到对 LPCNet 中使用的算法的深入解释。

关于 Jean-Marc Valin

Jean-Marc Valin 获得了谢布鲁克大学的电气工程学士、硕士和博士学位。他是 Speex 编解码器的主要作者,也是 Opus 编解码器的主要作者之一。他的专业领域包括语音和音频编码、语音识别、回声消除和其他与音频相关的主题。他目前受雇于 Mozilla,负责下一代多媒体编解码器的开发。

更多由 Jean-Marc Valin 撰写的文章……