网易首页 > 网易号 > 正文 申请入驻

AI也会“喵喵叫”:MIT团队让机器学会模仿声音

0
分享至

无论是描述故障汽车发动机的声音,还是模仿邻居家猫咪的叫声,当语言难以准确传达时,声音模仿反而是一种更为生动有效的表达方式。

声音模仿就像是用随手涂鸦来表达你眼中的景象,不同之处在于,它依靠声道来模拟声音,而非用铅笔绘图。虽然这种方式看似复杂,但其实每个人都会自然而然地这样做。不妨亲自尝试一下,试着用你的声音模仿救护车的警笛声、乌鸦的叫声或钟声。

受到人类交流方式和认知科学的启发,MIT 计算机科学与人工智能实验室的研究人员开发出一种 AI 系统,无需额外训练,即便从未“听过”人类的声音模仿,也能生成类似人类的声音模仿。

为实现这一目标,研究人员设计了一个模拟人类声道的系统,能够再现声带振动如何通过喉咙、舌头和嘴唇的形状变化发出声音。随后,他们采用一种受认知启发的 AI 算法来控制该声道模型,使其能够根据人类在不同情境下选择的表达方式,生成相应的声音模仿。

该模型能够高效地将各种真实世界的声音转化为类似人类的模仿声,包括树叶沙沙作响、蛇的嘶嘶声以及救护车接近时的警笛声。此外,这一模型还可以“反向”工作,通过人类的声音模仿推测真实世界中的声音。这种方式类似于某些计算机视觉系统能够根据草图还原高清图像。例如,该模型可以准确地区分人类模仿猫发出的“喵喵叫”和“嘶嘶声”。

未来,这一模型有望催生更直观的“基于模仿”的声音设计界面、更具拟人化特点的虚拟现实 AI 角色,甚至应用于帮助学生学习新语言的方法。

该研究的共同第一作者包括 MIT 博士生 Kartik Chandra、博士生 Karima Ma 以及本科研究员 Matthew Caren。他们指出,计算机图形学领域的研究人员早已认识到,真实感并不是视觉表达的终极目标。例如,一幅抽象画或孩子用蜡笔随手涂鸦的作品,往往能与照片一样富有表现力。

Chandra 表示:“过去几十年,素描算法的进步不仅带来了新的艺术工具,还推动了 AI 和计算机视觉的突破,甚至深化了我们对人类认知的理解。正如素描是对图像的抽象和非真实写实的表现形式,我们的方法同样捕捉了人类在表达所听声音时的抽象、通过拟声词等语言来形容的方式。这让我们得以更深入地理解听觉抽象的过程。”

Matthew Caren 对此补充道:“这个项目旨在理解声音模仿的本质,并通过计算机模型对其进行模拟。我们将声音模仿视为听觉领域中类似于‘视觉领域素描’的一种表达方式。”

模仿艺术三步走

研究团队开发了三个层次逐步递进的模型版本,以便将其与人类的声音模仿进行比较。首先,他们构建了一个基线模型,旨在尽可能生成与真实世界声音相似的模仿声音。然而,这个模型与人类的模仿方式存在较大差距。

接着,研究人员设计了一个沟通型模型。根据 Caren 的解释,这个模型会考虑听众对某种声音的独特感知特征。例如,你可能会通过模仿引擎的轰鸣声来表现摩托艇的声音,因为这种声音最具辨识度,尽管它可能不是最响亮的部分,如水花四溅的声音。这个改进后的模型生成的声音模仿比基线模型更贴近人类的表达方式,但研究团队仍希望进一步优化。

为此,研究人员在模型中引入了推理层。Chandra 表示:“声音模仿的效果会受到投入的努力程度影响。要生成完全准确的声音,需要付出时间和精力。”因此,升级后的模型会避免产生过于快速、响亮或音调极高或极低的声音,因为人们在日常对话中通常不会这样表达。最终,这一改进模型生成的声音模仿更加符合人类特点,更真实地反映了人们在模仿同一声音时所做出的选择。

在模型构建完成后,研究团队开展了一项行为实验,测试人类评审如何看待 AI 生成与人类生成的声音模仿,并评估哪种更受欢迎。值得注意的是,实验结果显示,参与者在25%的情况下更偏好 AI 模型生成的声音。尤其是在模仿摩托艇声音时,AI 模型的偏好率高达 75%,而在模仿枪声时,这一偏好率达到 50%。

迈向更具表现力的声音技术

Caren 对音乐和艺术领域的技术充满热情,他设想这一模型可以帮助艺术家更高效地与计算系统沟通声音,并为电影制作人和其他内容创作者提供更贴合特定情境的细腻AI声音。这项技术还可能使音乐家通过模仿那些难以用文字描述的声音,快速检索声音数据库,提升创作效率。

与此同时,Caren、Chandra和 Ma 正积极探索该模型在其他领域的潜在应用,例如语言的发展过程、婴儿如何学习说话,甚至是鹦鹉和鸣禽等鸟类的模仿行为。

不过,该模型的当前版本仍有改进空间。例如,它在处理某些如“z”的辅音时存在困难,导致对蜜蜂嗡嗡声等声音的模仿不够准确。此外,该模型尚无法复现人类对语音、音乐,或在不同语言中对某些声音,比如心跳声,进行不同方式模仿的能力。

斯坦福大学语言学教授 Robert Hawkins 指出,语言中充满了拟声词和模仿但并不完全复制所描述事物的词汇,比如 “meow” 这个词与猫咪真实的叫声就不完全一致。Hawkins 表示:“从真实的猫叫声到 ‘meow’ 这个词的形成过程,揭示了在语言进化中生理机制、社会推理和交流之间复杂的相互作用。” Hawkins 并未参与这项研究,但他认为:“这个模型是将这些过程的理论形式化并加以验证的重要一步,展示了人类声道的物理限制和社交交流的压力共同作用,解释了声音模仿的分布现象。”

Caren、Chandra 和 Ma 与另外两位 MIT 计算机科学与人工智能实验室的成员共同撰写了这篇论文,他们是 MIT 电气工程与计算机科学系副教授 Jonathan Ragan-Kelley,以及MIT 大脑与认知科学系教授、Brains, Minds, and Machines 中心成员 Joshua Tenenbaum。该研究得到了赫兹基金会和美国国家科学基金会的部分资助,并在 12 月初发表在 SIGGRAPH Asia 会议上。

https://news.mit.edu/2025/teaching-ai-communicate-sounds-humans-do-0109

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
权威数读丨3月份:CPI同比继续温和上涨

权威数读丨3月份:CPI同比继续温和上涨

新华社
2026-04-10 15:15:36
3-0!3-0!5连败日乒仅3小时,温瑞博杀疯:连续横扫成国乒遮羞布

3-0!3-0!5连败日乒仅3小时,温瑞博杀疯:连续横扫成国乒遮羞布

大秦壁虎白话体育
2026-04-10 19:16:33
路虎加完油逃单后续:调查线索断警方结案,为啥不查网友一语中的

路虎加完油逃单后续:调查线索断警方结案,为啥不查网友一语中的

潮鹿逐梦
2026-04-10 15:28:06
活久见!一学生被老师斥责为“社会蛀虫”,考研成功主动告知对方

活久见!一学生被老师斥责为“社会蛀虫”,考研成功主动告知对方

火山詩话
2026-04-10 16:03:06
前阿里财务总监爆火言论:普通家庭买车是最蠢的动作!评论炸锅

前阿里财务总监爆火言论:普通家庭买车是最蠢的动作!评论炸锅

许三岁
2026-04-10 09:31:44
特朗普、万斯为欧尔班助选,可能起反作用了......

特朗普、万斯为欧尔班助选,可能起反作用了......

山河路口
2026-04-10 19:06:33
3月份英国销量前十车型榜单,中国车历史性夺冠

3月份英国销量前十车型榜单,中国车历史性夺冠

财经老庄
2026-04-10 07:20:23
报应来了?欧美工厂大面积瘫痪,现在来求中国复工?晚了!

报应来了?欧美工厂大面积瘫痪,现在来求中国复工?晚了!

月光作笺a
2026-04-10 21:14:58
第8次被解雇?穆里尼奥可能被提前1年解约 执教本菲卡又抓内鬼

第8次被解雇?穆里尼奥可能被提前1年解约 执教本菲卡又抓内鬼

智道足球
2026-04-10 17:39:38
这是文物刚出土的样子,“新鲜”到不像真品,难怪专家会被农民骗

这是文物刚出土的样子,“新鲜”到不像真品,难怪专家会被农民骗

收藏大视界
2026-04-10 23:37:01
姆巴佩2次倒地未获点!伯纳乌球迷狂嘘+高喊腐败,皇马官方:丑闻

姆巴佩2次倒地未获点!伯纳乌球迷狂嘘+高喊腐败,皇马官方:丑闻

我爱英超
2026-04-11 06:55:11
郑丽文书法争议:她的字真的不是自己写的吗?

郑丽文书法争议:她的字真的不是自己写的吗?

书画相约
2026-04-08 08:19:04
高圆圆的脚是我见过最漂亮的脚丫子。

高圆圆的脚是我见过最漂亮的脚丫子。

别人都叫我阿螫
2026-04-09 17:29:15
伊朗官方确认:翼龙-2首次参战即被击落,海湾国家反应强烈

伊朗官方确认:翼龙-2首次参战即被击落,海湾国家反应强烈

最新声音
2026-04-06 08:32:33
特朗普下“最后通牒”,要求欧洲拿出霍尔木兹海峡军事计划,吕特:能帮一定帮

特朗普下“最后通牒”,要求欧洲拿出霍尔木兹海峡军事计划,吕特:能帮一定帮

上观新闻
2026-04-10 16:09:03
公然放水,西部还有变数!

公然放水,西部还有变数!

毒舌NBA
2026-04-10 13:53:03
西交大突然换帅!新书记来自中央财经大学,履历太特殊

西交大突然换帅!新书记来自中央财经大学,履历太特殊

Delete丨CC
2026-04-10 19:21:08
伊丽莎白女王临终合影:最后的48小时,她还在强撑着履行天职

伊丽莎白女王临终合影:最后的48小时,她还在强撑着履行天职

世界王室那些事
2026-04-08 12:07:40
赛力斯新专利:汽车座便器!

赛力斯新专利:汽车座便器!

新浪财经
2026-04-10 19:33:14
文章上海开陕菜馆爆火!女儿打头阵捧场,手上婚戒引全网猜测

文章上海开陕菜馆爆火!女儿打头阵捧场,手上婚戒引全网猜测

老特有话说
2026-04-10 12:58:01
2026-04-11 07:39:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16563文章数 514859关注度
往期回顾 全部

科技要闻

马斯克狂发大火箭也养不起AI 年亏50亿美元

头条要闻

推动停火 巴基斯坦被指取得近年来最大的外交胜利之一

头条要闻

推动停火 巴基斯坦被指取得近年来最大的外交胜利之一

体育要闻

17岁赚了一百万美元,25岁被CBA裁员

娱乐要闻

黄景瑜王玉雯否认恋情!聚会细节被扒

财经要闻

李强主持召开经济形势专家和企业家座谈会

汽车要闻

搭载第二代刀片电池及闪充技术 腾势N8L闪充版预售35万起

态度原创

本地
艺术
家居
教育
军事航空

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

艺术要闻

曾熙『仿思翁山水册』

家居要闻

复古风格 自然简约

教育要闻

一年级压轴题,全班都不会

军事要闻

特朗普:对美国与伊朗达成和平协议“非常乐观”

无障碍浏览 进入关怀版