AI识别唇语:Meta 开源第一个视听语言翻译语料库

AI识别唇语:Meta 开源第一个视听语言翻译语料库 MuAViC

MuAViC 源数据来自 TED 和 TEDx 超过8000名演讲者的视频,提供了9种语言的1200小时的音频-视觉语料,包括英语、阿拉伯语、德语、希腊语语、西班牙语、法语、意大利语、葡萄牙语和俄语。

MuAViC 支持多种任务,如自动语音识别、唇读、机器翻译和端到端的语音到文本翻译。Meta 的开源模型 AV-HuBERT 经过 MuAViC 训练后,在嘈杂环境中的表现远优于其它领先的翻译模型。

—— Meta AI博客

更多文章

评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注