微软推出NaturalSpeech2语音模型：零样本生成唱歌唱歌

中关村在线| 2023-07-28 16:46:49

(资料图)

微软近日推出了一款名为NaturalSpeech2的语音模型，该模型采用“潜在扩散”式设计，其在零样本语音合成层面的效果显著。微软表示，该模型提供了“商业级”的语音/歌唱解决方案，能够为用户提供高质量、多样化的语音合成体验。微软对NaturalSpeech2进行了一系列演示，展示了其在零样本情况下生成具有不同说话人身份、韵律和风格（如唱歌）的语音的能力。与传统的语音转文字（TTS）系统不同，NaturalSpeech2使用“连续向量”取代“离散标记”来表示语音，从而生成更完整的语音片段，不会产生“缺乏感情”的“棒读（一字一顿地讲话）”现象。实验结果显示，NaturalSpeech2在零样本条件下生成的语音与语音提示和真实语音的韵律近乎一致，并且在LibriTTS和VCTK测试集上的自然度（以CMOS为度量）与真人语音难以区分。该项目的论文已经发布，感兴趣的人可以查阅。