发布时间:2023-01-09 09:44:44 来源:本站 作者:admin
语音到语音翻译(S2ST)的研究正在蓬勃发展,即将说话者或演员的单词从一种语言转换为另一种语言的技术。仅在2022年第四季度,预印本研究库arXiv就收录了27篇与S2ST相关的论文,名单上有许多家喻户晓的名字。
推动研究热潮的是S2ST的广泛应用,从视频通话的实时翻译到机器配音(或AI配音),以及马克·扎克伯格的无限元宇宙愿景。因此,Meta AI贡献了六篇论文并非巧合,其中包括2022年11月发表的一篇介绍SpeechMatrix的论文,作者将其描述为“最大的免费语音翻译语料库”。Meta AI 2022年11月的另一篇论文以台语福建语为案例研究,重点关注构建一个系统,以支持没有标准书写系统的语言的S2ST。本季度发布了三篇论文,微软是S2ST研究的第二大多产来源。该公司在2022年10月的论文中提出了一种与未配对语音和双语文本数据联合预处理的模型,以改进直接S2ST。微软的一些最大竞争对手已经非常熟悉S2ST的“直接”方法,它绕过了自动语音识别和机器翻译的传统步骤。
大科技与学术界相遇
Meta AI在2022年12月的一篇论文中介绍了BLASER,这是一种避免S2ST中ASR的无文本评估指标。(这是在该公司于2022年6月围绕新的多语言无文本S2ST方法进行宣传之后,据报道,该方法产生了第一个“基于真实世界开源音频数据训练的S2ST框架”。)与此同时,谷歌于2019年首次推出了S2ST系统Translatotron。2021 7月,谷歌声称第二次迭代Translatotron 2在翻译质量、语音稳健性和语音自然度方面优于原始版本。
澳大利亚墨尔本莫纳什大学的两篇论文探讨了S2ST技术问题的解决方案;即,解决了针对SOTA结果使用预训练语音变换器的高计算成本以及大多数语言对和域缺乏大规模数据的问题。
同样,字节跳动人工智能实验室(ByteDance AI Lab)2022年12月的一篇论文超越了扩大数据集的范畴,提出了“语音翻译三级混合”,这是一种增加增强语料库多样性的方法。该公司的第二篇论文探讨了一种解决普通话-粤语S2ST文本注释的方法。
在2022年第四季度的S2ST论文中,至少有一篇论文的其他著名贡献者是阿里巴巴、腾讯、谷歌研究和卡内基梅隆大学。