亚里士多德词典笔中的语音合成（TTS）技术实践

最编程 2024-04-27 19:58:43

...

声码器的作用是将声学模型输出的声学特征转换成语音时域信号。它直接影响着合成语音的音质，因此 对于用户体验来说至关重要。

在有道智能硬件产品实际落地开发中，声码器技术的研发面临着几大难点问题：

一是音质问题。声码器模型的建模能力不足，会直接导致合成语音产生底噪或者电音。但如果仅仅只是单纯地加大模型的参数，则会影响系统的推理速度。

二是性能问题。声码器的计算量在语音合成的整个框架中占比较大。要在嵌入式场景中合成高质量的语音，需要一个足够大、建模能力足够强的声码器模型。

但由于设备芯片的算力弱、内存小，大的声码器会导致体验延时明显上升。从用户的角度出发，延时过长，用户等待时间过久，自然不会有好的体验效果。

为了解决以上难题，通过大量实验和综合比对，最终有道 AI 团队选择了基于 GAN 方案的声码器。

任何学术上的方案要实现成工业界的产品，都需要进行大量的实验和打磨。

首先是针对不同场景使用不同的模型配置，有道 AI 团队对 GAN 声码器中的生成器模块进行了参数的细致调整，让它能够成功应用在嵌入式场景下，不同于传统参数声码器的机械感与模糊感，基于 GAN 的神经网络声码器可以合成高自然度、高清晰度的音频，缩短了离线 TTS 和在线 TTS 质量上的差距。

此外，我们还在模型的量化、压缩方面做了大量的工作，大大提升了语音合成的速度，明显降低了系统的资源占用。

上一篇：文件共享新趋势，二维码生成器全功能解析

下一篇：转发语音