OpenAI 前几天办了个 Science Week,请了一批科学家来做内部分享。其中一场的主题是「理解动物:AI 帮科学家解读跨物种语言」
其中讲了一个非常具体的故事:用 AI,在抹香鲸的声音里找到了元音
演讲的是Gašper Beguš,伯克利语言学副教授。他在伯克利带一个叫「生物与人工语言实验室」的团队,同时也是 CETI 项目(鲸鱼翻译计划)的语言学负责人
演讲之后,还有个对谈。上来的是Kevin Weil,OpenAI 科学副总裁,之前是 OpenAI 的首席产品官,更早在 Instagram 做产品负责人
![]()
Beguš 在 OpenAI Science Week 演讲
Beguš 上来先扔了一个判断:
在过去 60 年,语言学中的有一个基本假设:只有人类才能学语言 现在,这个假设不成立了
LLM 已经能处理人类语言中最复杂的部分,包括递归(把一个结构无限嵌套进另一个结构)和元语言分析(像语言学家一样画句法树、分析句子结构)。他们请语言学博士生来评估,模型表现接近博士水平
如果不是人类也能学语言,那其他生物的交流系统里,可能也有比我们以为的更复杂的东西
然后他讲了鲸鱼(DeepSeek :应该不是说我)
鲸鱼的咔哒声里藏着元音
抹香鲸靠咔哒声交流。听起来像摩尔斯电码,学界之前也一直这么理解:点击的数量和时间间隔携带信息
下面的这个,是我手机录的,有点杂音别介意↓
![]()
两头抹香鲸游向第三头鲸,交换咔哒声
Beguš 团队做了一件事:把这些咔哒声喂给他们自己搭的模型,然后打开模型内部,逐个神经元地看它学到了什么
模型确认了两个已知信息:点击数量很重要,时间间隔很重要。但它还多说了一句:频谱也很重要
这是新线索。但从「频谱重要」到搞清楚频谱里有什么,中间花了很长时间。Beguš 说有一段时间模型一直在提示频谱有信息,他们不知道怎么用
直到他们想通了一件事:鲸鱼太慢了
人类说话很快,鲸鱼的咔哒声节奏很慢。把鲸鱼的点击声加速,去掉中间的静默,调整到更接近人类感知的时间尺度,频谱上的模式一下子出现了
![]()
人类元音 vs 鲸鱼元音的频谱对比,红色箭头指向 formant 条纹
这些模式跟人类元音的频谱结构几乎一样
人类发元音 A 的时候放低下巴,口腔共振频率的条纹靠得近。发元音 I 的时候舌头抬高,条纹拉开。鲸鱼的咔哒声里也有这种条纹,目前找到了两种,团队把它们叫做 A 元音和 I 元音
发声机制也类似。人类用声带振动,通过改变嘴巴形状来区分元音。鲸鱼用发声唇(phonic lips)振动,通过改变鼻腔里一个气囊的形状来改变频谱
加速它们的对话之后,能听到它们在来回交换不同的元音。之前被认为是简单重复的叫声,现在知道至少有两种类型。而且这些频谱模式在不同海域的鲸鱼身上都能重复观测到
![]()
Pinchy 的对话转写,咔哒声被标注为 A 和 I 元音
这些数据来自多米尼加海岸。Beguš 最喜欢的一头鲸叫 Pinchy,一位话痨老奶奶,元音结构最早就是在她身上看到的。Beguš 说这些模式清晰到你可以拿纸笔把它们转写成人类字母
发现过程:模型告诉你往哪挖,但不帮你挖
Beguš 团队没有拿通用大模型去分析鲸鱼。他们自己搭了一个基于 GAN 的模型,思路是模拟婴儿学语言的过程:模型有一个「嘴巴」,需要改变形状来模仿它听到的声音,同时还要传递信息
他们叫这个框架「信息性模仿」(informative imitation)
![]()
经过九年义务教育的我们,应该都会说话吧
这个模型先在人类语音上验证过,脑信号对比实验显示模型内部的处理过程跟人脑听语音时的活动很接近。然后把同一套方法用在鲸鱼身上
关键是可解释性。他们用一个叫 CDEF 的技术,能做到单个神经元级别的分析:取出某个神经元,看它编码了什么,然后因果性地操纵这个神经元来验证。在这些模型里,单个神经元确实能代表数据中某个有意义的特征
Beguš 反复用了一个说法:AI 在科学发现中的角色是金属探测器。它告诉你往哪挖,但挖的活儿还是你自己干
回头看都容易,但当时花了很长时间。他说如果没有模型一直提示频谱有信息,他们大概率不会在这个方向上挖这么久
6000 种人类语言不够用,得让 AI 再造几千种
研究动物之前有个实际问题:怎么练习解码一种你完全不了解的交流系统
Beguš 团队做了个叫 Conlang Crafter 的管线。多个模型互相配合,自动生成全新的人造语言,从语音到词法到句法,完整的语法体系,能翻译句子
Conlang Crafter 生成的外星语言样本
人类有 6000 到 7000 种语言,但它们之间共性很多。其他物种的交流系统可能跟人类语言完全不同。所以得有练习材料
你可以让 Conlang Crafter 生成一种由外星头足类物种使用的语言,音素是颜色值和手势而非辅音元音,用 ASCII 表示。模型能跑出来
造 Klingon 和 Dothraki 需要语言学家手工干很久。现在这个管线能批量生成,给解码完全陌生的交流系统提供训练数据
鲸鱼有方言,而且会故意「秀」方言
Beguš 说他听一分钟鲸鱼交流就能大致判断它们来自哪片海域
更有意思的是,不同方言群在海洋中碰面时,会故意放大自己的方言特征。跟 1960 年代一个经典语言学研究一样:Martha's Vineyard 的岛民跟外地人说话时口音反而更重,用来强化身份认同
![]()
Beguš 之前发过一篇论文, 大致说: 如果我们听懂了动物在说什么,现有的法律体系怎么办
研究团队还首次录下了抹香鲸的分娩过程。11 头雌鲸聚到一起帮忙接生,把新生儿托举到水面。分娩期间交流量暴增。而且周围突然出现了大量领航鲸和弗氏海豚,Beguš 说跨物种交流可能比我们以为的更多
模型在发展自己的语言
做可解释性研究时,Beguš 发现模型被训练执行高难度任务时,会在内部发展自己的通信协议。一开始团队看到模型里有些奇怪的静默,不知道是什么。打开模型内部才发现,模型在用这些静默传递信息
他的判断是,随着 Agent 发展,模型之间的通信大概率不会用人类语言,效率不够。它们会发明自己的协议。理解这些协议需要可解释性
复杂思维可能不需要语言
Kevin Weil 提了一个问题:推理模型在思考时说话方式完全不同,会自言自语、回溯、纠错,这算语言吗
Beguš 觉得更有意思的是另一个现象:你可以训练一个模型让它的链式思维变成乱码,推理性能不会大幅下降
如果复杂思维可以在没有可读语言的情况下存在,那语言可能只是最外面一层,用来把内部世界传达给别人
鲸鱼可能也是这样。它们的内部世界可能比它们的「语言」所能表达的要复杂得多
离听懂你家狗还有多远
Kevin Weil 说他 9 岁的女儿听说今天的主题后问了一个问题:我们什么时候能跟狗说话
![]()
Kevin Weil 和 Beguš 讨论「能不能跟狗说话」
Beguš 的回答是,我们需要的是一个通道。有些物种天然提供这个通道,比如非洲灰鹦鹉 Alex 能模仿人类语言,科学家通过它发现鹦鹉会计数、能区分形状和颜色。在 Alex 之前,没人知道鹦鹉能做到这些
AI 有可能成为其他物种的这种通道。但 Beguš 说他作为语言学家,现阶段更想先「听」,搞清楚它们的系统怎么运作的,而不是急着去「翻译」
Kevin Weil 接了一句:如果你能解码狗的语言,你手上就是一家万亿美元公司
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.