不止聆听,更求甚解 | Google 开放 DolphinGemma,共探海豚智慧之声

作者 / 野生海豚项目研究总监、创始人 Denise Herzing 博士;Google DeepMind 研究科学家兼佐治亚理工学院教授 Thad Starner 博士

几十年来,理解海豚发出的咔嗒声、哨声和猝发脉冲声始终是一个科学探索的前沿领域。如果我们不仅能倾听海豚的声音,还能很好地理解它们复杂的交流模式,进而生成逼真的回应,会发生什么呢?

在不久前的 "全国海豚日",Google 与佐治亚理工学院的研究人员及野生海豚项目 (WDP) 的实地研究团队合作,宣布了 DolphinGemma 的进展。DolphinGemma 是一款基础 AI 模型,经过训练后可用于学习海豚发声的结构,并生成类似海豚的新颖声音序列。这种寻求跨物种交流的方法不仅突破了 AI 的边界,也拓展了我们与海洋世界建立联系的可能性。

  • 野生海豚项目

    https://www.wilddolphinproject.org/

数十年来对海豚社会的研究

了解任何物种都需要深厚的背景知识,而这正是 WDP 提供的众多内容之一。自 1985 年以来,WDP 开展了世界上持续时间最长的水下海豚研究项目,对巴哈马一个特定的野生大西洋斑点海豚 (Stenella frontalis) 种群进行了跨代研究。该研究项目采用非侵入性的方法,坚持 "在它们的世界,遵循它们的方式" 理念,积累了丰富且独特的数据集: 数十年的水下视频和音频,且这些数据与海豚的个体身份、生活史和观察到的行为精准匹配。

△ 一群大西洋斑点海豚 (Stenella frontalis)

WDP 的一个主要关注点是观察和分析海豚的自然交流和社交互动方式。在水下工作使研究人员能够直接将声音与特定行为联系起来,而这是水面观察无法做到的。数十年来,研究人员一直尝试将声音类型与行为情景进行关联。下面是一些示例:

  • 通过标志性的哨声 (如同海豚的专属名号),母海豚和幼崽可以重新团聚

  • 在争斗中经常听到 "尖厉" 的猝发脉冲声

  • 在求偶或追逐鲨鱼时常使用 "嗡嗡" 的咔嗒声

要准确解读海豚的行为,了解参与互动的海豚个体非常重要。这项观察工作的最终目标是理解这些自然声音序列中的结构和潜在含义,寻找可能表明具有语言特征的模式和规则。这种对自然交流方式的长期分析构成了 WDP 研究的基石,也为任何 AI 分析提供了必要的背景信息。

△ 左图: 一只母斑点海豚在觅食时观察着她的幼崽。当幼崽活动结束后,她会用自己独特的标志性哨声将他召回。右图: 用光谱图可视化呈现这种哨声。

DolphinGemma 简介

分析海豚自然而复杂的交流方式是一项艰巨的任务,而 WDP 所积累的海量标记数据集为前沿 AI 的应用提供了独特的机会。

DolphinGemma 应运而生。这款由 Google 开发的 AI 模型利用了多项 Google 的音频技术: SoundStream 分词器能高效地表征海豚的声音,随后采用适合处理复杂序列的模型架构来处理这些声音数据。这款拥有约 4 亿参数的模型规模经过优化,可以直接在 WDP 野外考察时所使用的 Pixel 手机上运行。

△ 在 DolphinGemma 初期测试中生成的哨声 (左) 和猝发脉冲声 (右)

该模型是在 Gemma 项目的基础上构建的,而 Gemma 是 Google 推出的最先进的轻量级开放模型系列,采用了与 Gemini 模型相同的研究成果和技术构建而成。DolphinGemma 利用 WDP 的野生大西洋斑点海豚声学数据库进行了大量训练,作为一个 "音频输入--音频输出" 的模型,它可以处理海豚的自然声音序列,识别其中的模式和结构,并最终预测序列中接下来可能出现的声音,就像人类语言的大语言模型预测句子中的下一个词或词元一样。

  • Gemma

    https://ai.google.dev/gemma

WDP 已开始在本个野外考察季的实地研究中部署 DolphinGemma,其潜在优势显而易见。通过识别反复出现的声音模式、集群和可靠的序列,该模型可以帮助研究人员揭示海豚自然交流中隐藏的结构和潜在含义——这在过去往往需要大量人工分析才能完成。未来,研究人员希望通过这些序列,以及为指代海豚喜欢玩耍的物体而创造的合成声音,能够与海豚建立一个用于互动交流的共享词汇表。

使用 Pixel 手机聆听和分析海豚的声音

除了分析自然交流,WDP 还在另辟蹊径: 探索利用海洋技术实现双向互动的可能性。由此,WDP 与佐治亚理工学院合作开发了 CHAT (鲸类听觉增强遥测) 系统。CHAT 是一款水下计算机,它的设计初衷并非直接破译海豚复杂的自然语言,而是建立一个更简单的共享词汇表。

  • CHAT

    https://www.wilddolphinproject.org/our-research/chat-research/

这一概念首先依赖于将新颖的合成哨声 (由 CHAT 创建,不同于海豚的自然声音) 与海豚喜欢的特定物体 (如马尾藻、海草或研究人员使用的围巾) 相关联。通过在人类之间演示这一系统,研究人员希望生性好奇的海豚学会模仿这些哨声来请求得到这些物品。最终,随着对海豚自然声音的理解日益加深,研究人员也可以将这些被破译的自然声音信号纳入 CHAT 系统中。

要实现双向互动,CHAT 系统首先需要:

1. 在海洋噪音中准确地听到海豚的模仿声。

2. 实时识别海豚模仿的是哪种哨声。

3. 通过水下骨传导耳机告知研究人员海豚 "请求" 的物体。

4. 助力研究人员迅速回应,通过提供正确的物体来强化这种联系。

Google Pixel 6 负责对海豚声音进行实时的高保真分析。即将发布的下一代 CHAT 系统以 Google Pixel 9 (计划于 2025 年夏季开展相关研究) 为核心,在此基础上进行了升级,集成了扬声器/麦克风功能,并利用手机的先进处理能力,同时运行深度学习模型和模板匹配算法。

△ 左图: Denise Herzing 博士戴着 "2012 年款 Chat Senior",右图: 佐治亚理工学院博士生 Charles Ramey 戴着 "2025 年款 Chat Junior"

使用 Pixel 智能手机显著减少了对定制硬件的需求,提高了系统可维护性,降低了功耗,并有效控制了设备的成本和尺寸,这些都是在广阔海域进行实地研究时很重要的优势。与此同时,DolphinGemma 的预测能力可以帮助 CHAT 更早地在发声序列中预测并识别出潜在的模仿行为,从而让研究人员能够更快地对海豚做出反应,实现更加流畅的互动,并增强彼此之间的联系。

△ 内置于最新 CHAT 系统硬件中的 Google Pixel 9

与研究社区分享 DolphinGemma

我们深知合作在科学探索中的重要价值,因此计划于今年夏天将 DolphinGemma 作为开放模型向研究社区开放。尽管该模型是以大西洋斑点海豚的声音为基础进行训练,但我们相信它对研究其他鲸类物种 (如宽吻海豚或飞旋海豚) 的科研人员也具有潜在价值。针对不同物种的发声特征,可能需要对模型进行微调,而模型的开放性恰好为这种适应性调整提供了便利条件。

通过提供诸如 DolphinGemma 这样的工具,我们希望助力全球各地的研究人员从自己的声学数据集中挖掘信息,加速模式识别的过程,共同深化人类对这些智慧海洋哺乳动物的认知。

要理解海豚的交流方式,我们仍有很长的路要走,但 WDP 的长期实地研究、佐治亚理工学院的工程技术知识,加上 Google 科技的强大支持,正在为我们的探索带来令人振奋的新契机。如今,我们已不仅仅满足于倾听,而是开始理解声音背后的模式,为未来人类与海豚之间的沟通架起一座桥梁,让彼此的距离或许能更近一些。

您可以在野生海豚项目的网站上了解更多相关信息。

  • 野生海豚项目

    https://www.wilddolphinproject.org/


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值