用你自己的声音说外语:跨语言神经编解码器语言模型 VALL-E X
微软亚洲研究院发布 VALL-E 的扩展 VALL-E X,它可以通过一个几秒的源语音片段来生成目标语言的语音,同时保留说话者的声音、情感和声学环境。
VALL-E X 不需要说话人的跨语言语音进行训练即可执行各种语音生成任务,例如跨语言文本到语音、语音合成和语音到语音翻译。
VALL-E 基于 Meta 在2022年10月开源的 EnCodec 技术之上,同时在 Meta 组建的 LibriLight 音频库进行训练,音频库包含了来自7000多名演讲者的6万小时英语演讲,大部分来自 LibriVox 公共领域的有声读物。
演示示例中展示了”中文语音转英文语音”、”英文语音转中文语音”、”英语文本转中文语音”等各种场景。
发表回复