AICon 深圳站 Keynote 嘉宾官宣!共探AI价值转化的实践路径 了解详情
写点什么

Meta 开发出首个无文字语言 AI 翻译系统,闽南语翻译安排上了!

  • 2022-10-25
    北京
  • 本文字数:2685 字

    阅读完需:约 9 分钟

Meta开发出首个无文字语言AI翻译系统,闽南语翻译安排上了!

本文最初发布于 VentureBeat 博客。


人工语音翻译是一种新兴的人工智能(AI)技术。起初,这种语音翻译技术(S2ST)是为了帮助说不同语言的人进行交流而创建的,但现在,它已经进入了多个领域。例如,全球科技企业集团正使用 S2ST 直接翻译元宇宙中的共享文件和音频对话。


在上周的 Cloud Next ’22 大会上,谷歌宣布了自己的 AI 语音翻译模型“Translation Hub”。该模型使用了云翻译 API 和 AutoML 翻译。现在,Meta 也不甘落后。


近日,Meta AI 宣布启动通用语音翻译(UST)项目,旨在创建一个可以跨所有语言进行实时语音翻译的 AI 系统,甚至包括那些口语常用但书面语不常用的语言。


Meta 联合创始人兼首席执行官马克·扎克伯格说,“Meta AI 开发了首个语音翻译软件,主要用于口语而非书面语。它是开源的,这样人们就可以把它用于更多的语言”。


按照 Meta 的说法,该模型是首个人工智能语音翻译系统,用于非书面语言闽南语。闽南语是一种在中国东南沿海和台湾地区使用的语言,在世界各地的华人中,也有许多人在使用。该系统使得说闽南语的人可以与说英语的人进行对话,这是打破全球语言障碍的重要一步。它将促进人与人之间的交流,无论他们在哪里——甚至在元宇宙中。


这是一项艰巨的任务,因为与普通话、英语和西班牙语既是书面语言又是口头语言不同,闽南语主要是口头的。


AI 如何处理语音翻译


Meta 表示,目前的人工智能翻译模型主要关注广泛使用的书面语言,在主要的口头语言中,尚有超过 40% 没有被这种翻译技术所覆盖。在 2 月份举行的公司 AI Inside The Lab 活动上,扎克伯格分享了 Meta AI 针对网络上不常见的语言进行通用语音翻译研究的进展。UST 项目就是在此基础上开展的。那次活动的重点是使用这种沉浸式 AI 技术来构建元宇宙。


为了构建 UST,Meta AI 致力于克服翻译系统面临的三项关键挑战。他们获取了更多语言的更多训练数据,并找到了利用现有数据的新方法,解决了数据稀缺的问题。他们还解决了随着模型发展(支持更多语言)而产生的建模挑战。他们还找到了新的方法来评估和改进其结果。


Meta AI 的研究团队将闽南语作为端到端解决方案的一项案例研究,从训练数据收集和建模选择到基准数据集。该团队专注于创建人工标注数据,自动从大型无标签语音数据集中挖掘数据,并采用伪标签生成弱监督数据。


Meta 研究员 Juan Pino 表示:“我们团队首先将英语或闽南语的语音翻译成普通话文本,然后再将其翻译成闽南语或英语。然后,我们会将成对的句子添加到用于训练人工智能模型的数据中。”


在这段视频中,扎克伯格展示了该公司的人工智能语音翻译模型。


在建模方面,Meta AI 运用了该领域的最新进展,在语音翻译中使用自监督离散表示作为预测目标,并演示了在模型训练中附加来自普通话的文本监督的有效性。Meta AI 表示,他们还将发布一个语音翻译基准,以推动该领域未来的研究。


人工智能研究员、Lightning AI 首席执行官兼联合创始人 William Falcon 表示,人工语音翻译可以在元宇宙中发挥重要作用,因为它有助于促进交互和内容创造。


Falcon 告诉 VentureBeat,“在交互方面,它将使来自世界各地的人们相互之间更顺畅地交流,使社交图谱的联系更为紧密。此外,借助人工语音翻译可以轻松将内容本地化,以供多种语言消费。”


Falcon 认为,疫情大幅增加了远程办公的人数,以及对远程办公工具的依赖,这些因素共同推动了该领域的发展。显然,这些工具可以从语音翻译功能中受益。


他说,“很快,我们就有望在元宇宙中实现播客、Reddit AMA 或 Clubhouse 式的体验了。使用多种语言进行广播,大规模地增加潜在受众。”

Meta 通用语音翻译系统(UST)的工作原理


该模型使用 S2UT 将输入语音直接转换为该路径下的一系列声学单元,这是 Meta 之前开创的一种实现方式。生成的输出由来自输入单元的波形组成。此外,Meta AI 采用了 UnitY 的双通解码机制,即一通解码器生成相关语言(普通话)的文本,二通解码器创建单元。


为了实现闽南语的自动评估,Meta AI 开发了一个系统,将闽南语语音转录为一个名为“Tâi-lô”的标准化音标。这使得数据科学团队可以计算音节级的 BLEU 评分(一种标准的机器翻译指标),并快速比较不同方法的翻译质量。


具有单路和双路解码器的 UST 模型架构。阴影中的方块为预训练模块(图片来源:Meta AI)。


除开发了一种评估闽南语 - 英语语音翻译的方法外,该团队还创建了第一个闽南语 - 英语双向语音翻译基准数据集,该数据集基于闽南语语音语料库“Taiwanese Across Taiwan”。


Meta AI 声称,他们在闽南语中开创的技术可以扩展到许多其他非书面语言——并最终实现实时翻译。为此,Meta 发布了语音矩阵(Speech Matrix),这是一个大型的语音翻译语料库,可使用 Meta 的创新数据挖掘技术(LASER)进行挖掘。这将使其他研究团队能够创建他们自己的 S2ST 系统。


LASER 将多种语言的句子转换为单个多模式、多语言表示。该模型使用大规模多语言相似度搜索来识别语义空间中相似的句子,即不同语言中可能具有相同含义的句子。


从语音矩阵中挖掘出的数据提供了 41.8 万小时的并行语音用于翻译模型训练,覆盖了 272 个语言方向。到目前为止,已经挖掘出超过 8000 小时的闽南语语音以及相应的英语翻译。


语音翻译未来的机遇与挑战


目前,Meta AI 的重点是开发一个语音翻译系统,而且要不依赖于推理过程中生成的中间文本表示。事实证明,该方法比传统的级联系统(组合使用了独立的语音识别、机器翻译和语音合成模型)速度更快。

Synthesis AI 首席执行官兼创始人 Yashar Behzadi 认为,如果元宇宙要取得成功,就需要借助技术提供更多沉浸式的自然体验。


他指出,由于语言的广泛性、复杂性和语言之间存在的细微差别,UST 模型目前面临的挑战之一是训练所需的计算成本非常高昂。


他说,“训练健壮的 AI 模型需要大量的代表性数据。在不久的将来,构建这些 AI 模型的一个重要瓶颈将是收集、管理和标注符合隐私合规要求的训练数据。获取的数据不够多样化可能会导致偏见,对不同的人群产生不同的影响。新兴的合成语音和 NLP 技术有可能在实现更强大的模型方面发挥重要的作用。”


Meta 表示,随着效率的提高和架构的简化,直接进行语音到语音的翻译可以为 AR 眼镜等未来设备解锁接近人类质量的实时翻译功能。此外,该公司最近在无监督语音识别(wav2vecu)和无监督机器翻译(mBART)方面取得的进展将有助于在元宇宙中翻译更多的口头语言。


随着在无监督学习方面取得的进展,Meta 旨在打破现实世界和元宇宙中所有语言的语言障碍,无论是书面的还是非书面的。


原文链接:


https://venturebeat.com/ai/meta-ai-announces-first-ai-powered-speech-translation-system-for-an-unwritten-language

2022-10-25 10:566264
用户头像
刘燕 InfoQ高级技术编辑

发布了 1112 篇内容, 共 578.1 次阅读, 收获喜欢 1981 次。

关注

评论

发布
暂无评论
发现更多内容

跃见书单 | 一文带你读懂《人工智能简史》

码上跃见

AIGC #人工智能

我干嘛要去学Python???!!!

代码生成器研究

淘宝商品详情API接口文档(API SDK)

tbapi

淘宝商品详情数据接口 淘宝API接口 淘宝商品详情页面数据 淘宝商品详情数据采集方法 天猫数据接口

12 月 3 日北京,时序数据管理前沿技术+行业应用尽在 IoTDB 用户大会!

Apache IoTDB

鸿蒙学堂·创新实训营再度启航深圳,中国移动、国家电网等40余家企业参与

最新动态

几种常见的排序算法总结

不在线第一只蜗牛

算法 排序算法 教程分享

如何调用电商API接口获取相关商品的推荐列表?

技术冰糖葫芦

API API 文档

软件测试/人工智能|AutoGPT原理与架构介绍

霍格沃兹测试开发学社

如何系统、科学地自学编程知识?

代码生成器研究

为什么 Mac 适合编程?

代码生成器研究

铭文聚合交易平台 Scorpio:铭文赛道狂潮的新引领者

股市老人

百度大模型安全解决方案获WitAwards 2023 年度大奖

百度安全

安全 大模型安全

Presto+Alluxio数据平台实战

数新网络官方账号

大数据

C/C++ 开发SCM服务管理组件

不在线第一只蜗牛

c 开发语言 c++、

一文弄懂竞品分析 - 竞品分析是什么| 从哪些方面分析 | 竞品分析报告怎么写?

彭宏豪95

效率工具 产品经理 在线白板 竞品分析 SWOT

E往无前 | 海量数据ES 扩展难?腾讯云大数据ES 扩展百万级分片也“So Easy~”

腾讯云大数据

ES

软件测试/人工智能|一文教你如何配置自己的AutoGPT

霍格沃兹测试开发学社

北京同仁堂签署鸿蒙生态合作协议,加速推进鸿蒙原生应用开发

最新动态

软件测试/人工智能|教你如何使用ChatGPT的API

霍格沃兹测试开发学社

SQL 通配符:用于模糊搜索和匹配的 SQL 关键技巧

小万哥

MySQL 数据库 程序员 sql 后端开发

拒绝连锡!3种偷锡焊盘轻松拿捏

华秋电子

PCBA

保姆级连接FusionInsight MRS kerberos Hive

数新网络官方账号

Java hive 华为云 Dbeaver

只需3分钟!组织架构图如何简单快速制作

职场工具箱

组织架构图

喜讯!云起无垠成为国家信息安全漏洞库(CNNVD)技术支撑单位

云起无垠

登陆 Azure、发布新版本……Zilliz 昨夜今晨发生了什么?

Zilliz

azure Milvus Zilliz zillizcloud

IDC最新报告,增速减缓+AI增势,阿里云视频云中国市场第一

阿里云CloudImagine

云计算 视频云

拼多多商品详情数据接口应用在哪些场景?

tbapi

拼多多 拼多多商品详情接口 拼多多API接口

全链协同,链接未来|端点科技联合IDC重磅发布新一代ERP白皮书

科技热闻

Meta开发出首个无文字语言AI翻译系统,闽南语翻译安排上了!_AI&大模型_Victor Dey_InfoQ精选文章