欢迎您访问 最编程 本站为您分享编程语言代码,编程技术文章!
您现在的位置是: 首页

亚里士多德词典笔中的语音合成(TTS)技术实践

最编程 2024-04-27 19:58:43
...
声码器的作用是将声学模型输出的声学特征转换成语音时域信号。它直接影响着合成语音的音质,因此 对于用户体验来说至关重要。

在有道智能硬件产品实际落地开发中,声码器技术的研发面临着几大难点问题:

一是音质问题。声码器模型的建模能力不足,会直接导致合成语音产生底噪或者电音。但如果仅仅只是单纯地加大模型的参数,则会影响系统的推理速度。

二是性能问题。声码器的计算量在语音合成的整个框架中占比较大。要在嵌入式场景中合成高质量的语音,需要一个足够大、建模能力足够强的声码器模型。

但由于设备芯片的算力弱、内存小,大的声码器会导致体验延时明显上升。从用户的角度出发,延时过长,用户等待时间过久,自然不会有好的体验效果。

为了解决以上难题,通过大量实验和综合比对,最终有道 AI 团队选择了基于 GAN 方案的声码器。

任何学术上的方案要实现成工业界的产品,都需要进行大量的实验和打磨。

首先是针对不同场景使用不同的模型配置,有道 AI 团队对 GAN 声码器中的生成器模块进行了参数的细致调整,让它能够成功应用在嵌入式场景下,不同于传统参数声码器的机械感与模糊感,基于 GAN 的神经网络声码器可以合成高自然度、高清晰度的音频,缩短了离线 TTS 和在线 TTS 质量上的差距。

此外,我们还在模型的量化、压缩方面做了大量的工作,大大提升了语音合成的速度,明显降低了系统的资源占用。