微软亚洲研究院发布的跨语言神经编解码器VALL-E X

作者：

在

用你自己的声音说外语：跨语言神经编解码器语言模型 VALL-E X

微软亚洲研究院发布 VALL-E 的扩展 VALL-E X，它可以通过一个几秒的源语音片段来生成目标语言的语音，同时保留说话者的声音、情感和声学环境。

VALL-E X 不需要说话人的跨语言语音进行训练即可执行各种语音生成任务，例如跨语言文本到语音、语音合成和语音到语音翻译。

VALL-E 基于 Meta 在2022年10月开源的 EnCodec 技术之上，同时在 Meta 组建的 LibriLight 音频库进行训练，音频库包含了来自7000多名演讲者的6万小时英语演讲，大部分来自 LibriVox 公共领域的有声读物。

演示示例中展示了”中文语音转英文语音”、”英文语音转中文语音”、”英语文本转中文语音”等各种场景。

VALL-E X 微软亚洲研究院

更多文章

评论

发表回复取消回复