微软亚洲研究院发布的跨语言神经编解码器VALL-E X

用你自己的声音说外语:跨语言神经编解码器语言模型 VALL-E X

微软亚洲研究院发布 VALL-E 的扩展 VALL-E X,它可以通过一个几秒的源语音片段来生成目标语言的语音,同时保留说话者的声音、情感和声学环境。

VALL-E X 不需要说话人的跨语言语音进行训练即可执行各种语音生成任务,例如跨语言文本到语音、语音合成和语音到语音翻译。

VALL-E 基于 Meta 在2022年10月开源的 EnCodec 技术之上,同时在 Meta 组建的 LibriLight 音频库进行训练,音频库包含了来自7000多名演讲者的6万小时英语演讲,大部分来自 LibriVox 公共领域的有声读物。

演示示例中展示了”中文语音转英文语音”、”英文语音转中文语音”、”英语文本转中文语音”等各种场景。

更多文章

评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注