网易首页 > 网易号 > 正文 申请入驻

AI也会“喵喵叫”:MIT团队让机器学会模仿声音

0
分享至

无论是描述故障汽车发动机的声音,还是模仿邻居家猫咪的叫声,当语言难以准确传达时,声音模仿反而是一种更为生动有效的表达方式。

声音模仿就像是用随手涂鸦来表达你眼中的景象,不同之处在于,它依靠声道来模拟声音,而非用铅笔绘图。虽然这种方式看似复杂,但其实每个人都会自然而然地这样做。不妨亲自尝试一下,试着用你的声音模仿救护车的警笛声、乌鸦的叫声或钟声。

受到人类交流方式和认知科学的启发,MIT 计算机科学与人工智能实验室的研究人员开发出一种 AI 系统,无需额外训练,即便从未“听过”人类的声音模仿,也能生成类似人类的声音模仿。

为实现这一目标,研究人员设计了一个模拟人类声道的系统,能够再现声带振动如何通过喉咙、舌头和嘴唇的形状变化发出声音。随后,他们采用一种受认知启发的 AI 算法来控制该声道模型,使其能够根据人类在不同情境下选择的表达方式,生成相应的声音模仿。

该模型能够高效地将各种真实世界的声音转化为类似人类的模仿声,包括树叶沙沙作响、蛇的嘶嘶声以及救护车接近时的警笛声。此外,这一模型还可以“反向”工作,通过人类的声音模仿推测真实世界中的声音。这种方式类似于某些计算机视觉系统能够根据草图还原高清图像。例如,该模型可以准确地区分人类模仿猫发出的“喵喵叫”和“嘶嘶声”。

未来,这一模型有望催生更直观的“基于模仿”的声音设计界面、更具拟人化特点的虚拟现实 AI 角色,甚至应用于帮助学生学习新语言的方法。

该研究的共同第一作者包括 MIT 博士生 Kartik Chandra、博士生 Karima Ma 以及本科研究员 Matthew Caren。他们指出,计算机图形学领域的研究人员早已认识到,真实感并不是视觉表达的终极目标。例如,一幅抽象画或孩子用蜡笔随手涂鸦的作品,往往能与照片一样富有表现力。

Chandra 表示:“过去几十年,素描算法的进步不仅带来了新的艺术工具,还推动了 AI 和计算机视觉的突破,甚至深化了我们对人类认知的理解。正如素描是对图像的抽象和非真实写实的表现形式,我们的方法同样捕捉了人类在表达所听声音时的抽象、通过拟声词等语言来形容的方式。这让我们得以更深入地理解听觉抽象的过程。”

Matthew Caren 对此补充道:“这个项目旨在理解声音模仿的本质,并通过计算机模型对其进行模拟。我们将声音模仿视为听觉领域中类似于‘视觉领域素描’的一种表达方式。”

模仿艺术三步走

研究团队开发了三个层次逐步递进的模型版本,以便将其与人类的声音模仿进行比较。首先,他们构建了一个基线模型,旨在尽可能生成与真实世界声音相似的模仿声音。然而,这个模型与人类的模仿方式存在较大差距。

接着,研究人员设计了一个沟通型模型。根据 Caren 的解释,这个模型会考虑听众对某种声音的独特感知特征。例如,你可能会通过模仿引擎的轰鸣声来表现摩托艇的声音,因为这种声音最具辨识度,尽管它可能不是最响亮的部分,如水花四溅的声音。这个改进后的模型生成的声音模仿比基线模型更贴近人类的表达方式,但研究团队仍希望进一步优化。

为此,研究人员在模型中引入了推理层。Chandra 表示:“声音模仿的效果会受到投入的努力程度影响。要生成完全准确的声音,需要付出时间和精力。”因此,升级后的模型会避免产生过于快速、响亮或音调极高或极低的声音,因为人们在日常对话中通常不会这样表达。最终,这一改进模型生成的声音模仿更加符合人类特点,更真实地反映了人们在模仿同一声音时所做出的选择。

在模型构建完成后,研究团队开展了一项行为实验,测试人类评审如何看待 AI 生成与人类生成的声音模仿,并评估哪种更受欢迎。值得注意的是,实验结果显示,参与者在25%的情况下更偏好 AI 模型生成的声音。尤其是在模仿摩托艇声音时,AI 模型的偏好率高达 75%,而在模仿枪声时,这一偏好率达到 50%。

迈向更具表现力的声音技术

Caren 对音乐和艺术领域的技术充满热情,他设想这一模型可以帮助艺术家更高效地与计算系统沟通声音,并为电影制作人和其他内容创作者提供更贴合特定情境的细腻AI声音。这项技术还可能使音乐家通过模仿那些难以用文字描述的声音,快速检索声音数据库,提升创作效率。

与此同时,Caren、Chandra和 Ma 正积极探索该模型在其他领域的潜在应用,例如语言的发展过程、婴儿如何学习说话,甚至是鹦鹉和鸣禽等鸟类的模仿行为。

不过,该模型的当前版本仍有改进空间。例如,它在处理某些如“z”的辅音时存在困难,导致对蜜蜂嗡嗡声等声音的模仿不够准确。此外,该模型尚无法复现人类对语音、音乐,或在不同语言中对某些声音,比如心跳声,进行不同方式模仿的能力。

斯坦福大学语言学教授 Robert Hawkins 指出,语言中充满了拟声词和模仿但并不完全复制所描述事物的词汇,比如 “meow” 这个词与猫咪真实的叫声就不完全一致。Hawkins 表示:“从真实的猫叫声到 ‘meow’ 这个词的形成过程,揭示了在语言进化中生理机制、社会推理和交流之间复杂的相互作用。” Hawkins 并未参与这项研究,但他认为:“这个模型是将这些过程的理论形式化并加以验证的重要一步,展示了人类声道的物理限制和社交交流的压力共同作用,解释了声音模仿的分布现象。”

Caren、Chandra 和 Ma 与另外两位 MIT 计算机科学与人工智能实验室的成员共同撰写了这篇论文,他们是 MIT 电气工程与计算机科学系副教授 Jonathan Ragan-Kelley,以及MIT 大脑与认知科学系教授、Brains, Minds, and Machines 中心成员 Joshua Tenenbaum。该研究得到了赫兹基金会和美国国家科学基金会的部分资助,并在 12 月初发表在 SIGGRAPH Asia 会议上。

https://news.mit.edu/2025/teaching-ai-communicate-sounds-humans-do-0109

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
坏消息来了,他空降日本执教,薪资曝光,国乒将迎来生死强敌

坏消息来了,他空降日本执教,薪资曝光,国乒将迎来生死强敌

陈恧侃故事
2026-04-13 01:14:16
总人口不到我国1%,研发战机比美俄更先进,武器从不依赖进口

总人口不到我国1%,研发战机比美俄更先进,武器从不依赖进口

圆梦的小老头
2026-04-09 15:04:37
赌王最不愿提起的家族秘闻:是的,我妹妹和我弟弟有一个孩子

赌王最不愿提起的家族秘闻:是的,我妹妹和我弟弟有一个孩子

小熊侃史
2026-04-05 13:47:04
蓝光光盘不死!仅剩最后一颗独苗:专供日本

蓝光光盘不死!仅剩最后一颗独苗:专供日本

快科技
2026-04-12 16:35:46
特朗普考虑恢复对伊朗有限军事打击

特朗普考虑恢复对伊朗有限军事打击

财联社
2026-04-13 09:18:03
赫鲁晓夫政变全过程!朱可夫在会议中掏出手枪,当众把贝利亚扣押

赫鲁晓夫政变全过程!朱可夫在会议中掏出手枪,当众把贝利亚扣押

老范谈史
2026-04-03 21:59:52
Netflix砸1.5亿打造的8集神剧,被砍后观众集体破防

Netflix砸1.5亿打造的8集神剧,被砍后观众集体破防

热搜摘要官
2026-04-13 08:55:29
古人类为何主动丢掉阴茎骨?灵长类都有,唯独我们是例外

古人类为何主动丢掉阴茎骨?灵长类都有,唯独我们是例外

心中的麦田
2026-04-11 19:00:02
陪玩陪睡还不够?继注射不明物体后,再传"噩耗" ,肖战意外被牵

陪玩陪睡还不够?继注射不明物体后,再传"噩耗" ,肖战意外被牵

阿凫爱吐槽
2026-04-13 04:22:24
带儿子看急诊,护士竟是前妻,她头都没抬:孩子妈没来?儿子:我妈不在了,护士阿姨能做我新妈吗?

带儿子看急诊,护士竟是前妻,她头都没抬:孩子妈没来?儿子:我妈不在了,护士阿姨能做我新妈吗?

品读时刻
2026-04-11 09:12:01
央视怒批!“绝望的文盲”丢脸到国外,冯远征的话终于有人信了

央视怒批!“绝望的文盲”丢脸到国外,冯远征的话终于有人信了

人间无味啊
2026-03-13 03:17:17
上海锁常规赛冠军更衣室!卢伟直指开心,被全队浇水,加油声洪亮

上海锁常规赛冠军更衣室!卢伟直指开心,被全队浇水,加油声洪亮

篮球资讯达人
2026-04-12 22:21:42
俄罗斯坐地起价,卖印度原油价格涨4倍!报复的就是你

俄罗斯坐地起价,卖印度原油价格涨4倍!报复的就是你

小兰聊历史
2026-04-12 22:10:04
他日因今日果!4月命运垂青,财运旺到挡不住的3生肖,努力天不负

他日因今日果!4月命运垂青,财运旺到挡不住的3生肖,努力天不负

毅谈生肖
2026-04-13 10:34:30
活久见!一学生被老师斥责为“社会蛀虫”,考研成功主动告知对方

活久见!一学生被老师斥责为“社会蛀虫”,考研成功主动告知对方

火山詩话
2026-04-10 16:03:06
控制体重最佳的时间是晚上,晚上坚持“5个不”,隔天体重轻松掉

控制体重最佳的时间是晚上,晚上坚持“5个不”,隔天体重轻松掉

运动健身号
2026-04-06 10:00:11
004核航母落空?美媒:除关键术落后,多个原因让中国不必要造它

004核航母落空?美媒:除关键术落后,多个原因让中国不必要造它

温读史
2026-04-12 10:25:41
受美伊谈判无果及美计划封锁霍尔木兹海峡影响 国际金价下跌 油价上涨

受美伊谈判无果及美计划封锁霍尔木兹海峡影响 国际金价下跌 油价上涨

每日经济新闻
2026-04-13 09:13:26
更名难如登天?温州医科大学想叫浙江医科大学,卡在哪了

更名难如登天?温州医科大学想叫浙江医科大学,卡在哪了

户外阿毽
2026-04-12 13:17:27
英国性感人妻Bonni Gee下海

英国性感人妻Bonni Gee下海

吃瓜党二号头目
2026-04-13 09:43:02
2026-04-13 12:00:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16571文章数 514868关注度
往期回顾 全部

科技要闻

传荣耀与字节跳动接洽“豆包手机”合作

头条要闻

村民拴绳拦道致骑车13岁男孩被割喉:气道、食管破裂

头条要闻

村民拴绳拦道致骑车13岁男孩被割喉:气道、食管破裂

体育要闻

一支球队不够烂,也是一种悲哀

娱乐要闻

贾玲减重后现身冯巩生日宴 身材未反弹

财经要闻

封锁,还是收费站?

汽车要闻

不止命名更纯粹 领克10/10+要做纯电操控新王

态度原创

数码
时尚
手机
健康
家居

数码要闻

海信空调三十而立,以智能化开启空气产业新征程

这些才是普通人借鉴的穿搭!上短下长、上窄下宽,显瘦又舒适

手机要闻

华为Pura X Max可选幻夜黑、橄榄金等5款配色,还有典藏版

干细胞抗衰4大误区,90%的人都中招

家居要闻

复古风格 自然简约

无障碍浏览 进入关怀版