使用 LPCNet 的实时宽带神经声码器,比特率仅 1.6 kb/s

这是对 LPCNet 项目 的更新,该项目是 Mozilla 新兴技术团队开发的高效神经语音合成器。在 去年晚些时候的一个演示 中,我们展示了 LPCNet 如何将信号处理和深度学习相结合,提高神经语音合成的效率。

这次,我们将 LPCNet 打造成一种超低比特率的神经语音编解码器,它可以在当前硬件甚至手机上实际使用 (如本文所述)。这是首次神经声码器能够在手机上仅使用一个 CPU 内核实时运行(与高端 GPU 相比)!所得比特率——仅 1.6 kb/s——大约是宽带编解码器通常使用的比特率的 1/10。其质量比现有的超低比特率声码器要好得多。事实上,它与使用更高比特率的更传统编解码器相当。

LPCNet sample player

演示播放器的屏幕截图,展示了 LPCNet 编码语音的质量

这种新的编解码器可用于改善网络连接状况不佳国家/地区的语音质量。它还可用作冗余,以提高对所有人数据包丢失的鲁棒性。在存储应用中,它可以将一个小时的播客压缩到只有 720 kB(因此您仍然可以在软盘上有空间)。经过一些进一步的努力,LPCNet 背后的技术可以帮助改善现有编解码器在超低比特率下的表现。

详细了解我们正在进行的工作,并查看本文中的可播放演示

关于 Jean-Marc Valin

Jean-Marc Valin 在谢布鲁克大学获得电气工程学士、硕士和博士学位。他是 Speex 编解码器的主要作者,也是 Opus 编解码器的主要作者之一。他的专业领域包括语音和音频编码、语音识别、回声消除以及其他与音频相关的主题。他目前受雇于 Mozilla,从事下一代多媒体编解码器的工作。

Jean-Marc Valin 的更多文章…