AI通过宗教打通人类语言障碍:Meta 开源发布支持1100-4000种语言的语音技术
Massively Multilingual Speech (MMS) 支持1107种语言的 STT (语音转文本) 和 TTS (文本转语音),可识别4017种口头语言。模型和代码在 CC-BY-NC 4.0 协议下开源,单词错误率只有 OpenAI Whisper 的一半。
“现有的语音识别模型和语音数据集仅涵盖大约100种语言——地球已知7000多种语言的一小部分。更令人担忧的是,这些语言中将近一半可能会在我们有生之年消失。通过这项工作,我们希望为保护世界语言多样性做出一点贡献。”
为收集数千种语言的音频数据 Meta 求助了《圣经》等宗教文本,这些文本已被翻译成了多种不同语言,并且已被广泛用于语言翻译研究,这些翻译的公开录音记录了人们用不同语言阅读这些文本的情况。通过1100多种语言的新约读物数据和4000多种其它基督宗教读物的无标签录音,Meta 成功将语言覆盖扩展为了此前10倍。
—— Meta AI
发表回复