网易首页 > 网易号 > 正文 申请入驻

「汪汪」to Vector!密歇根博士生用AI解码狗的声音 | LREC 2024

0
分享至

新智元报道

编辑:alan

【新智元导读】近日,来自密歇根大学的研究人员,开发了一款人工智能工具,可以区分不同含义的狗叫声,并识别狗的年龄、性别和品种。

有没有想过你的狗狗想要对你说什么?

在科幻或者想象的场景中,人类有时会编织类似的情节。

然而在AI风行之下,科幻已然到来!

狗的语言也是「自然语言」,人的语言能word to vector,「汪汪」为什么不行?

近日,就有研究人员开发了一款人工智能工具,可以区分不同含义的狗叫声,并识别狗的年龄、性别和品种。

论文地址:https://arxiv.org/pdf/2404.18739

而且,研究结果表明,源自人类语音的声音和模式,可以作为分析和理解其他声音(例如动物发声)声学模式的基础。

研究者来自密歇根大学,以及墨西哥国家天体物理、光学和电子研究所(INAOE)。

该篇工作同时发表在International Conference on Computational Linguistics, Language Resources and Evaluation上。

这是一作Artem Abzaliev,和他的狗Nova:

——以前是遇事不决,量子力学,以后搞不定的事都喂给AI模型就行了。

大模型:嗯?怎么今天的饭味道怪怪的?

要理解狗狗,首先需要收集狗狗的数据,二作Humberto Pérez-Espinosa负责领导收集数据的团队,共记录了74只不同品种、年龄和性别的狗狗在各种情况下发出的声音。

然后是训练模型,研究人员比较了两种方式的实现效果:

1. 完全用狗狗的声音数据从头训练模型; 2. 在人类语音预训练模型的基础上,使用狗狗声音数据进行微调。

模型选择Wav2Vec2,是使用人类语音数据训练的SOTA语音表示模型。

通过这个模型,研究人员能够生成从狗身上收集的声学数据的表示,并解释这些表示。

实验表明,使用人类语音预训练的模型,居然表现更好。

看来通用基础大模型微调的套路,即使跨物种也能行得通。

最重要的是,研究人员不必时常被极高的数据门槛所阻碍。

毕竟,相比于人类语言,收集动物语言数据要难得多,公开的数据集更是少之又少。

Artem Abzaliev表示,动物的发声在逻辑上更难征求和记录,要么在野外被动记录,要么寻找家养宠物,但必须征得主人的许可。

文章的作者之一,密歇根大学人工智能实验室主任Rada Mihalcea表示:

「关于与我们共享这个世界的动物,我们不知道的还有很多。人工智能的进步将彻底改变我们对动物交流的理解,而且我们可以使用以人类语音为基础的预训练模型,不必从头开始。」

「汪汪」to Vector

要理解动物的交流方式,需要解决三个主要问题:

(1)动物使用的语音和感知单位是什么? (2)组合这些单位的规则是什么? (3)这些单位是否有意义,如何将声音单位映射到具体含义?

而这篇工作探讨的是第三个问题,尝试去理解狗狗发声的语义。

数据准备

研究人员使用了一个由74只狗的叫声记录组成的数据集,这些记录是在墨西哥的狗主人家中现场收集的。

使用相机内置麦克风获得录音,音频编解码器为A52立体声,采样率48,000Hz,比特率为256kbps。

本研究中使用的狗发声协议,由墨西哥Tlaxcala行为生物学中心的动物行为专家设计和验证。

74只狗狗包括48只母狗和26只公狗,品种分布为:42只吉娃娃、21只法国贵宾犬和11只雪纳瑞犬。狗的年龄在5到84个月之间,平均年龄为35个月。

狗的叫声来自于不同的场景,比如:

实验者反复按响家庭门铃并用力敲门; 实验者模拟对狗狗主人的攻击; 主人亲切地对狗说话; 主人使用狗通常玩的物品与狗玩耍; 主人执行散步前的正常例行程序; 主人用皮带将狗拴在树上,然后走出视线;

记录狗狗对这些刺激做出的反应,根据不同情景,录音会持续10秒到60分钟。

数据处理

将录音会分割成较短的片段,长度在0.3到5秒之间,使用阈值来区分叫声和背景噪声。

使用与刺激相关的信息手动注释每个生成的片段。下表显示了14种狗的发声类型以及相应的段数和持续时间:

模型

为了在数据集中创建狗狗叫声的声学表示,研究人员以自监督语音表示模型Wav2Vec2为基础,来进行微调。

Wav2Vec2使用Librispeech语料库进行预训练(960小时未标记的人类语音数据),来学习如何将音频信号表示为一系列离散标记。

这里使用HuggingFace上的Wav2Vec2开源实现,并且比较了用狗狗数据从头训练模型,以及使用预训练模型微调,两者的效果差异。

分类任务

研究人员探索了几个基本任务,包括个体叫声识别、狗的品种识别、性别识别、以及预测叫声关联的场景。

所有实验都使用十倍交叉验证设置:将7-8只狗作为测试数据集,使用其余狗的发声进行训练。

叫声识别

这个任务需要将单个音频片段,分类为数据集中74只狗中的一只。据说,人类很难区分单个狗的吠叫声,但AI不同,即使是无监督的模型也可以表现得相当好。

下表显示了实验结果,使用预训练模型微调的方案占据了优势:

品种鉴别

这项任务的目标是预测狗的品种(吉娃娃、法国贵宾犬和雪纳瑞犬)。这里假设不同的品种有不同的音高,因此声学模型应该能够识别这些差异,而与上下文无关。

这有点类似于人类的口音识别,比如根据声音来区分是美国、英国还是印度人。

实验结果如下表所示,预训练模型表现最好。单个品种的差异可以通过每个品种的观察数量不平衡来解释,吉娃娃是数据集中最常见的品种(57%),其次是法国贵宾犬(28%)和雪纳瑞犬(15%)。

性别预测

这项任务的目的是探究是否有可能从发声中预测狗的性别。

结果如下表所示。这次是从头开始训练的Wav2Vec2模型表现更好,而预训练模型对女性类别有一些改进,可能是因为狗狗数据集中母狗的数据比较多(按总持续时间计算,母狗为67.95%,公狗为32.04%)。

从结果来看,在所有任务中,性别识别是最困难的任务。

作者假设从头开始训练的模型专注于学习声学特征,而预训练的wav2vec则试图走捷径,导致过拟合,因此女性的F1增加,男性的F1降低。

关联场景预测

最后一项任务预测叫声关联的场景。由于标签分布高度偏斜,这里关注的是有更多例子的场景:

对陌生人非常具有攻击性的吠叫(LS2); 对陌生人正常吠叫(L-S1); 负面尖叫(在陌生人在场的情况下)(CH-N); 消极的咕噜声(在陌生人面前)(GR-N)。

实验结果如下表所示。与之前的实验类似,两种Wav2Vec2模型的表现都优于基线(Majority),而预训练版本获得了最准确的结果。

参考资料:

https://www.sciencedaily.com/releases/2024/06/240604132204.htm

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
窦骁做梦都没想到,演一个小配角,就让他彻底摆脱了豪门赘婿标签

窦骁做梦都没想到,演一个小配角,就让他彻底摆脱了豪门赘婿标签

芬霏剧时光
2026-05-25 10:29:50
韩国超模自曝身材烦恼:太丰满也是一种负担,1个穿搭秘诀化解困扰

韩国超模自曝身材烦恼:太丰满也是一种负担,1个穿搭秘诀化解困扰

赴一场山海啊
2026-05-25 00:12:48
陈龙受伤后现身医院,大儿子全程陪同,章龄之埋怨他不遵医嘱!

陈龙受伤后现身医院,大儿子全程陪同,章龄之埋怨他不遵医嘱!

情感大头说说
2026-05-26 01:50:07
9月1日起严查落地,中央部委新规,房子档案要重新建档案了

9月1日起严查落地,中央部委新规,房子档案要重新建档案了

专业聊房君
2026-05-26 10:11:53
广东2名顾客带宠物猫进沃尔玛,一边撸猫一边用手触碰熟食,随后又放回原处,门店回应:店内禁止宠物入内,目前已上报管理层研判处置

广东2名顾客带宠物猫进沃尔玛,一边撸猫一边用手触碰熟食,随后又放回原处,门店回应:店内禁止宠物入内,目前已上报管理层研判处置

北青网-北京青年报
2026-05-26 15:31:17
武契奇被授予友谊勋章 ​​​​,对外最高荣誉,已向7位元首颁发

武契奇被授予友谊勋章 ​​​​,对外最高荣誉,已向7位元首颁发

光电科技君
2026-05-25 23:12:21
反常一幕出现,中国已断供日本稀土4个月,日方却还没出现危机

反常一幕出现,中国已断供日本稀土4个月,日方却还没出现危机

林子说事
2026-05-26 18:19:56
霸王茶姬的加盟商可能是最惨茶饮人

霸王茶姬的加盟商可能是最惨茶饮人

巨潮WAVE
2026-05-26 12:46:32
俄方:外国公民尽快离开基辅

俄方:外国公民尽快离开基辅

第一财经资讯
2026-05-26 11:11:48
中方通告全球,对菲律宾发布66号公告:马科斯知道,中国动真格了

中方通告全球,对菲律宾发布66号公告:马科斯知道,中国动真格了

阿库财经
2026-05-26 09:09:27
苏超口碑大反转!球员因为“淫乱”行为被内部处理,已经不是秘密

苏超口碑大反转!球员因为“淫乱”行为被内部处理,已经不是秘密

酷侃体坛
2026-05-26 18:11:31
毛主席原定1950年举行开国大典,斯大林得知后当场变脸警告刘少奇:必须立刻改期!

毛主席原定1950年举行开国大典,斯大林得知后当场变脸警告刘少奇:必须立刻改期!

寄史言志
2026-05-09 19:13:45
普京遗憾返程,谈了二十年都没戏,中国这次要俄认清一个事实

普京遗憾返程,谈了二十年都没戏,中国这次要俄认清一个事实

小兰聊历史
2026-05-26 12:38:58
前球员:兼具KD投射与乔丹、科比的气质,文班拥有一切GOAT潜质

前球员:兼具KD投射与乔丹、科比的气质,文班拥有一切GOAT潜质

懂球帝
2026-05-26 20:40:30
74岁布丽吉特:为了马克龙,整容扮嫩撑了9年,如今终于可以解脱

74岁布丽吉特:为了马克龙,整容扮嫩撑了9年,如今终于可以解脱

毒舌小红帽
2026-05-14 16:09:46
你认可吗!手机系统流畅度最新排名:OPPO继续第一、小米澎湃OS升至第3

你认可吗!手机系统流畅度最新排名:OPPO继续第一、小米澎湃OS升至第3

快科技
2026-05-26 16:26:50
老公偷偷改我刹车系统,我装不知道,第二天小姑子跑来找我借车

老公偷偷改我刹车系统,我装不知道,第二天小姑子跑来找我借车

千秋文化
2026-05-14 20:19:05
5700亿方淡水白白流走?中方砸万亿截弯取直,把西北“喂成”江南

5700亿方淡水白白流走?中方砸万亿截弯取直,把西北“喂成”江南

古事寻踪记
2026-05-25 07:07:29
我国已累计发布1750项食品安全标准

我国已累计发布1750项食品安全标准

北青网-北京青年报
2026-05-26 07:35:02
是不是活该?哈林不听劝执意参加“歌手”节目,首轮即被淘汰…

是不是活该?哈林不听劝执意参加“歌手”节目,首轮即被淘汰…

慧翔百科
2026-05-25 11:45:45
2026-05-26 21:23:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15311文章数 66890关注度
往期回顾 全部

科技要闻

中国AI要向外卷,而不只是做第二个OpenAI

头条要闻

山西矿难幸存者拒绝家人"不再下矿"要求:债还没还完

头条要闻

山西矿难幸存者拒绝家人"不再下矿"要求:债还没还完

体育要闻

上赛季差点降入英甲,下赛季要踢英超了

娱乐要闻

台媒贴脸!S妈被问大S嗑药当场沉默

财经要闻

中国铝行业爆单 下一个“煤炭”大周期?

汽车要闻

涉水加强 福特烈马亚马逊限量版上市 售价39.98万

态度原创

数码
手机
艺术
亲子
家居

数码要闻

小米海外推出REDMI Headphones Neo头戴式耳机

手机要闻

荣耀600e中端手机今日海外发布

艺术要闻

中国之美,美到极致!

亲子要闻

儿童高热惊厥抽搐,急救记好这六点

家居要闻

生与命相依 旧公寓改造

无障碍浏览 进入关怀版