网易首页 > 网易号 > 正文 申请入驻

阿里开源R1-Omni,DeepSeek同款RLVR首度结合全模态情感识别

0
分享至

西风 发自 凹非寺
量子位 | 公众号 QbitAI

首次将DeepSeek同款RLVR应用于全模态LLM,含视频的那种!

眼睛一闭一睁,阿里通义实验室薄列峰团队又开卷了,哦是开源,R1-Omni来了。

同样在杭州,这是在搞什么「开源双feng」(狗头保命)?

他们都做了啥?

DeepSeek-R1带火了RLVR(可验证奖励强化学习),之前已有团队将RLVR应用于图像-文本多模态LLM,证明其在几何推理和视觉计数等任务上表现优异。

然鹅,尚未探索将其与包含音频、动态视觉内容的全模态LLM结合。

薄列峰团队首次将RLVR与全模态LLM结合,聚焦的是视觉和音频模态都提供关键作用的情感识别任务

团队实验发现,模型在三个关键方面有显著提升:

RLVR的引入不仅提高了模型在分布内数据上的整体性能,而且在分布外数据集上也展现出了更强的鲁棒性。

更重要的是,提升后的推理能力使得能够清晰分析在情感识别过程中不同模态所起的作用。

R1-Omni在X上也吸引了不少网友关注:

非常有趣的论文,我立刻就能预见到它在市场营销和广告领域进行情感倾向分析的潜力。

还有网友表示可解释性+多模态学习就是下一代AI的方向。

一起具体来看R1-Omni。

R1-Omni长啥样?

在研究方法上,论文首先介绍了DeepSeek同款RLVR和GRPO。

RLVR是一种新的训练范式,其核心思想是利用验证函数直接评估输出,无需像传统的人类反馈强化学习(RLHF)那样依赖根据人类偏好训练的单独奖励模型。

给定输入问题q,策略模型πθ生成响应o,接着使用可验证奖励函数R(q,o)对其进行评估,其优化目标为最大化验证奖励减去基于KL散度正则化项的结果。

RLVR在简化了奖励机制的同时,确保了其与任务内在的正确性标准保持一致。

GRPO是一种全新的强化学习方法,它与PPO等传统方法有所不同,PPO依赖于一个评论家模型来评估候选策略的性能,而GRPO直接比较生成的响应组,避免了使用额外的评论家模型,简化了训练过程。

利用归一化评分机制,GRPO鼓励模型在组内优先选择奖励值更高的响应,增强了模型有效区分高质量和低质量输出的能力。

遵循DeepSeek-R1中提出的方法,团队将GRPO与RLVR相结合

R1-Omni模型构建方面,团队采用了一种受DeepSeek-R1训练方法启发的冷启动策略

在包含232个可解释多模态(视觉和音频)情感推理数据集(EMER)样本和348个手动标注的HumanOmni数据集样本的组合数据集上对HumanOmni-0.5B(一个专为人为场景理解设计的开源全模态模型)进行微调,使模型具备初步推理能力,了解视觉和音频线索是如何对情感识别产生作用的。

之后,通过RLVR训练优化模型,奖励函数由准确率奖励和格式奖励组成,准确性奖励评估预测情感与真实情感的匹配度,格式奖励确保模型输出符合指定的HTML标签格式。

模型输出预期包含两部分:一个推理过程,封装在""标签内,解释模型如何整合视觉和音频线索得出预测;一个最终情感标签,封装在""标签内,表示预测的情感。

推理/理解/泛化三方面提升

实验评估中,研究者将R1-Omni与三个基线模型进行比较:原始的HumanOmni-0.5B、在EMER数据集上进行监督微调的模型EMER-SFT、直接在MAFW和DFEW训练集上基于HumanOmni-0.5B进行监督微调的模型MAFW-DFEW-SFT

评估指标包括无加权平均召回率(UAR)和加权平均召回率(WAR),这些指标衡量模型在不同情感类别中准确分类情感的能力。

重要的是,所有评估都在开放词汇情感测试(OV-emotion)协议下进行。在这种设置中,模型不提供预定义的情感类别,而是直接从输入数据中生成情感标签,这增加了评估的挑战性和实际应用价值。

实验结果表明,R1-Omni在三个关键方面优于三个对比模型:推理能力增强、理解能力提高、泛化能力更强

研究者展示了一系列可视化示例,比较R1-Omni与其它三个模型的输出,R1-Omni提供了更连贯、准确和可解释的推理过程。

相比之下原始HumanOmni-0.5B和MAFW-DFEW-SFT模型表现出有限的推理能力,而EMER-SFT虽具备一定推理能力但推理过程连贯性较差且容易产生幻觉。

在MAFW和DFEW数据集上,R1-Omni在UAR和WAR指标上均优于其它模型。

例如在DFEW数据集上,R1-Omni实现了65.83%的UAR和56.27%的WAR,明显优于MAFW-DFEW-SFT的60.23%UAR和44.39%WAR。

为了评估模型的泛化能力,研究者在RAVDESS数据集上进行了实验,该数据集作为分布外(OOD)测试集。

与主要由电影片段组成的MAFW和DFEW数据集不同,RAVDESS数据集特点是专业演员以中性北美口音发表词汇匹配的陈述,这种数据分布的显著差异使RAVDESS成为评估模型泛化到未见场景能力的理想基准。

R1-Omni在RAVDESS数据集上相较于MAFW-DFEW-SFT模型有显著提升,实现了43.00%的UAR和44.69%的 WAR。

目前,基础模型HumanOmni-0.5B、冷启动模型EMER-SFT,还有MAFW-DFEW-SFT以及最终模型R1-Omni已全部开源。


[1]https://arxiv.org/abs/2503.05379
[2]https://github.com/HumanMLLM/R1-Omni

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
丧心病狂!河南14岁少年被虐死案:死时穿纸尿裤,胃里空无一物

丧心病狂!河南14岁少年被虐死案:死时穿纸尿裤,胃里空无一物

春日在捕月
2026-03-25 01:00:23
乌克兰摧毁波罗的海最大的俄方港口!圣彼得堡机场被迫关闭

乌克兰摧毁波罗的海最大的俄方港口!圣彼得堡机场被迫关闭

项鹏飞
2026-03-23 20:18:18
短短1年,灵活就业者暴增4千万

短短1年,灵活就业者暴增4千万

深度报
2026-03-23 21:47:58
毛主席看完工资方案沉默良久,对周总理说:这不是把我架炉子上烤吗

毛主席看完工资方案沉默良久,对周总理说:这不是把我架炉子上烤吗

文史明鉴
2026-03-26 15:22:47
世预赛欧洲区开打!明晨将有8队出局 8队进决赛 意大利生死战

世预赛欧洲区开打!明晨将有8队出局 8队进决赛 意大利生死战

叶青足球世界
2026-03-26 08:47:10
来俊臣的酷刑有多狠?曾有女犯哀求:只要不上刑,杀全族都行

来俊臣的酷刑有多狠?曾有女犯哀求:只要不上刑,杀全族都行

铭记历史呀
2026-03-09 15:28:19
大反转!U23国足球员劝架染红原因终于找到了,球迷曝光现场视频

大反转!U23国足球员劝架染红原因终于找到了,球迷曝光现场视频

侃球熊弟
2026-03-26 00:36:57
马英九真正翻脸原因是郑丽文聘请王金平为最高顾问,把马晾在一边

马英九真正翻脸原因是郑丽文聘请王金平为最高顾问,把马晾在一边

雪中风车
2026-03-26 09:16:02
美国收到糟糕信号!中方72岁老将刚回国,东盟十一国使节齐聚北京

美国收到糟糕信号!中方72岁老将刚回国,东盟十一国使节齐聚北京

通鉴史智
2026-03-26 15:20:48
军统天津站组长罗镇被抓,罗荣桓:他就是军区司令邢仁甫,大叛徒

军统天津站组长罗镇被抓,罗荣桓:他就是军区司令邢仁甫,大叛徒

抽象派大师
2026-03-25 12:55:59
这是目前为止,我见过腰最细的女生,没有之一

这是目前为止,我见过腰最细的女生,没有之一

草莓解说体育
2026-03-03 19:15:05
东契奇创4大纪录仍无缘日最佳,抱歉约基奇打出前无古人的数据

东契奇创4大纪录仍无缘日最佳,抱歉约基奇打出前无古人的数据

毒舌NBA
2026-03-26 13:11:59
一瓶3块,爆卖2亿!喝一口能把人送走的广东神饮,让老表们疯抢了

一瓶3块,爆卖2亿!喝一口能把人送走的广东神饮,让老表们疯抢了

毒sir财经
2026-03-16 21:37:01
“戏混子”又来霍霍年代剧?老气横秋、演技拉胯,难怪观众不买账

“戏混子”又来霍霍年代剧?老气横秋、演技拉胯,难怪观众不买账

翰飞观事
2026-03-24 17:00:30
雷军晒成绩:小米SU7、YU7双双第一!

雷军晒成绩:小米SU7、YU7双双第一!

快科技
2026-03-26 13:09:04
14.99万!“史上最便宜”特斯拉来了

14.99万!“史上最便宜”特斯拉来了

首席品牌观察
2026-03-24 16:18:39
貌美如花却身高2.26米,母亲为婚嫁发愁

貌美如花却身高2.26米,母亲为婚嫁发愁

流云随风去远方
2026-03-01 18:22:40
长护险制度全面推开!国家医保局:参保人无论来自农村还是城市,从同一个资金池报销费用

长护险制度全面推开!国家医保局:参保人无论来自农村还是城市,从同一个资金池报销费用

红星新闻
2026-03-26 11:28:05
1989年哈梅内伊在北京吃烤鸭时,一张罕见留影,此后再未踏出国门

1989年哈梅内伊在北京吃烤鸭时,一张罕见留影,此后再未踏出国门

动物奇奇怪怪
2026-03-07 01:52:57
20年后再看《亮剑》:军事上漏洞百出,政治上莫名其妙

20年后再看《亮剑》:军事上漏洞百出,政治上莫名其妙

明月清风阁
2026-03-25 14:50:09
2026-03-26 16:23:00
量子位 incentive-icons
量子位
追踪人工智能动态
12348文章数 176424关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

上海妈妈寻亲27年悬赏市区一套房:不用尽孝 要个拥抱

头条要闻

上海妈妈寻亲27年悬赏市区一套房:不用尽孝 要个拥抱

体育要闻

35岁替补门将,凭什么入选英格兰队?

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

黄仁勋:芯片公司的时代已经结束了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

教育
艺术
亲子
旅游
军事航空

教育要闻

教育部部署开展2026年全国中小学生安全教育周活动

艺术要闻

哪一座桥不是风景?

亲子要闻

售卖“增高神药”让孩子“猛长20厘米”?多家店铺被查

旅游要闻

济南动物园“花朝荟”系列活动浪漫上演

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版