网易首页 > 网易号 > 正文 申请入驻

OmniGAIA: 全模态AI智能体新基准,最强开源模型仅13分!

0
分享至


人大&小红书推出OmniGAIA基准和OmniAtlas智能体。

人类的智能是自然交织的——我们不仅同时用眼睛看、用耳朵听、用语言交流,还能进行复杂的长逻辑链推理,并在遇到难题时熟练使用搜索引擎等外部工具来辅助自己完成任务。

然而,当前爆火的“多模态大模型(MLLM)”大多仍局限于“图文”或“音文”的双模态交互。它们严重缺乏作为“通用AI助手”所必需的全模态统筹、长程推理与工具调用能力。

为了填补这一空白,中国人民大学联合小红书、东南大学、浙江大学和清华大学的研究团队重磅推出了 OmniGAIA——一个专为评估“原生全模态AI智能体”而设计的新基准,并同时开源了配套的基础智能体训练秘籍 OmniAtlas!

该工作不仅揭示了当前开源模型与顶尖闭源模型之间的巨大“智能鸿沟”,更给出了一套让大模型真正学会“看、听、想与用工具”的实战配方。目前代码、数据、模型已全面开源!


论文链接: https://arxiv.org/pdf/2602.22897

代码&Demo:https://github.com/RUC-NLPIR/OmniGAIA

数据集&模型:https://huggingface.co/collections/RUC-NLPIR/omnigaia

排行榜:https://huggingface.co/spaces/RUC-NLPIR/OmniGAIA-LeaderBoard

01


Demo

1. 图片+音频任务:计算图片和音频中两个事件发生时间相隔多久?

2. 带音频的视频任务:视频中讲者提到了一个某电影中的桥,请帮我调研其背景。

02


痛点直击:现有的评测为什么不够看

随着 Qwen3-Omni、Gemini-3 等全模态大模型的涌现,模型已经能在单一网络内统一处理文本、视觉和音频。但现有的评测基准(如 OmniBench、WorldSense 等)大多基于极短的音视频,且题型多为重“感知”的多项选择题。

在真实世界中,我们需要 AI 解决的问题是这样的:

“视频里导游指着远处的那座活动桥,解说提到这让他想起了电影《福禄双霸天》。请问这座桥到底叫什么名字?在1979年电影开拍时,这座桥已经建成了多少年?”


这就要求 AI 不能只会“看图说话”,它必须面对几十分钟的长视频,从中锚定地理位置,主动去搜索引擎查证桥的真实名字和建成年份,最后进行相关计算。

现有的评测测不出这种能力,OmniGAIA因此应运而生!

03


OmniGAIA:全模态智能体的新基准

OmniGAIA 包含360个源自真实世界的高难度任务,覆盖地理、历史、科技等 9 大垂直领域。输入不仅包含时长数十分钟的“视频+音频”,还有复杂的“图片+音频”组合。模型不能靠盲猜,必须多次调用外部工具才能得出唯一可验证的开放式最终答案。

它是如何构建出来的?——首创全模态事件图谱驱动法


为了自动合成逻辑严密且防作弊的高难度QA,团队设计了一套极其精妙的流水线:

1.数据收集从 FineVideo、LongVideoBench、LongVideo-Reason、COCO 2017 以及HuggingFace 中筛选并整理视频(含音频)及“图像+音频”数据源,覆盖 100 多个不同的垂直领域。

2.高价值信息挖掘使用Gemini-3-Flash 提取事件、进行环境分析、音频分析(包含自动语音识别 ASR、说话人身份识别 Speaker ID)以及图像理解(包含光学字符识别 OCR、物体识别、人脸识别)。

3.智能体全模态事件图谱构建DeepSeek-V3.2通过规划后续步骤、利用工具获取新信息,并结合大语言模型 (LLM) 的自我反思(self-reflexion) 与人工审查来验证事实准确性,从而迭代式地扩展初始事件图谱。

4.问答生成与质量审查通过事件模糊化(fuzzification) 生成高难度的多跳(multi-hop) 问答对,随后由 LLM 和人工共同验证其准确性、任务难度以及答案的唯一性。

04


OmniAtlas:原生全模态智能体基座模型

在严苛的测试下,早期的开源模型表现较差。为了提升开源全模态模型的 Agent 能力,团队不仅提出了基准,更给出了一套开源解法与完整的“训练秘籍”——OmniAtlas。


它遵循工具集成推理范式,包含三大核心杀手锏:

1.主动全模态感知(Active Perception)

面对超长视频或高清大图,传统的“全局降采样”会丢失大量细节。OmniAtlas 赋予了模型“指哪看哪、听哪”的特技!它可以通过内置工具(read_video / read_audio / read_image)精准截取特定时间段的视频或裁剪特定区域的图片,实现高保真的按需感知。

2.高质量轨迹合成与监督微调

团队利用强大的推理模型进行“后见之明引导的树探索”,在已知正确答案的引导下,剪枝掉错误分支,合成出完美的“思考+工具调用”成功轨迹。在监督微调阶段,采用掩码监督(Masked SFT),只对模型生成的“思考和动作”算 Loss,屏蔽掉外部工具返回的冗长噪音,让模型真正学会“如何思考”。

3. OmniDPO细粒度纠错

全模态任务极易“一步错,步步错”。团队首创了OmniDPO,能够精准定位失败轨迹中的第一处错误点(到底是没看清、听漏了,还是搜索关键词用错了?),并生成纠正后的正确前缀,构建正负样本对进行偏好优化,实现真正的“对症下药”!。

05


实验结果:性能鸿沟与成因

1.主实验结果:在OmniGAIA上对比全模态模型的性能


团队在统一提供外部工具(搜索、浏览器、代码)的严苛环境下评测了各大前沿模型,我们可以发现:

1.闭源王者断崖领先:最强的闭源模型 Gemini-3-Pro 拿下了62.5% 的一次通过率(Pass@1),展现出极其成熟的规划与验证能力。而最强的开源基线 Qwen-3-Omni (30B) 仅有13.3%,差距近乎 4.7 倍!

2.大力出奇迹失效:拥有高达5600亿 (560B) 庞大参数量的 LongCat-Flash-Omni 得分甚至不如 30B 的小模型!这证明了:在全模态Agent领域,优秀的“智能体工具调用策略”比单纯的参数规模更关键。

3.OmniAtlas疗效显著:经过OmniAtlas 训练配方优化的 Qwen-3-Omni,准确率从 13.3% 暴涨至 20.8% (+7.5)!在较小的 7B 模型上,更是提升了近 4 倍(3.6% ➡️ 13.3%)。

2.细粒度错误分析:AI到底在了哪一步?


通过对模型失败轨迹的解剖,研究发现:在困难任务中,开源模型有高达 90% 以上的失败源于没有正确使用工具(比如没有调用工具,陷入搜索死循环、查错方向),这直接导致了下游任务完成的全面崩溃。

3.工具调用行为分析


AI 到底该调用几次工具?散点分布图(Violin Plot)揭示了有趣的现象:

工具冷漠症完全不用工具的模型(集中在 0 次),成功率很低。这证实了仅靠模型脑内的先验知识,根本搞不定复杂的真实环境。

调得多就一定好吗?错!部分失败轨迹调用了 10~20 次以上工具,但全在做低效重复的无用功,无法有效解决不确定性。

从被动到主动:OmniAtlas 的工具调用分布更加主动,有效探索率的大幅提升直接拉动了过关率,但也带来了工具调用冗余的问题,希望后续工作可以更好的平衡性能与效率。

4.原生全模态感知vs外挂感知工具,哪个更好


我们真的需要原生全模态大模型吗?能不能用纯文本大模型,外挂一个“识图/听音 API”来代替?消融实验给出了答案:

1.对强模型来说,原生才是王道:Gemini-3-Flash依靠原生感知拿到最高分 51.7,且工具调用仅需 4.4 次。如果把感知拆分成外部工具,不仅成绩下降,API调用成本更是翻倍(增至 9.4 次)。

2.外挂工具打不了硬仗对于较弱的开源模型,外挂感知工具虽然能在简单题上提点分,但在需要复杂跨模态推理的 Hard 难题中,成绩直接崩盘(从 9.0 跌至 3.9)。

结论:外挂工具会切断模态间的内在联系,原生全模态融合,才是拔高AI智能上限的唯一正解!

06


总结与未来展望

看得清、听得懂只是起点,会思考、善用工具、能行动才是迈向通用人工智能(AGI)的试金石。

OmniGAIA 揭开了现有全模态大模型在“长程推理与多轮工具使用”上的缺陷,而OmniAtlas 的全套硬核实验剖析则为开源社区指明了一条极具潜力的演进路线。研究团队指出,通往真正原生全模态 AI 助手的道路上,未来有三大黄金赛道:

1.全模态智能体强化学习(Agentic RL):在真实全模态反馈下直接优化长视野决策策略。

2.全模态MCP生态:为全模态智能体接入更多工具,打造可扩展的MCP工具集。

3.全模态具身智能(Embodied Agents):将拥有“全模态大脑”的智能体引入物理世界,完成真实世界的交互,来打造我们生活中的AI助手。

07


作者信息


本工作第一作者李晓熙,目前就读于中国人民大学高瓴人工智能学院,博士三年级,研究方向主要包括Agentic AI、Deep Research、大模型推理、强化学习等。在国际顶级会议NeurIPS,ICLR,ACL等发表7篇一作工作,代表工作包括DeepAgent, WebThinker, Search-o1, RetroLLM等。2025 年起,他在小红书参加 RedStar 实习项目,进行Agentic AI和Deep Research领域的研究工作。


本文的通信作者窦志成,中国人民大学高瓴人工智能学院长聘教授、博士生导师、副院长。主要研究方向为信息检索、大模型、智能体、大模型检索增强、AI搜索、司法智能等。在国际知名学术会议和期刊上发表论文200余篇,带领团队研发涉外法治大模型,开源大模型检索增强工具包FlashRAG、iAgent系列信息智能体(WebThinker、ARPO、DeepAgent等)累计获得GitHub星标1万余枚。

未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!

公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
《成何体统》王楚然172,关晓彤172同框秒杀白鹿、赵露思

《成何体统》王楚然172,关晓彤172同框秒杀白鹿、赵露思

湘西二当家
2026-02-25 18:22:09
樊振东到底做了什么?让9连败的他,终于赢了张本智和!

樊振东到底做了什么?让9连败的他,终于赢了张本智和!

曹老师评球
2026-02-27 21:12:33
她拒唱国歌,否认中国籍,俩儿子也落户国外,如今她过得怎么样了

她拒唱国歌,否认中国籍,俩儿子也落户国外,如今她过得怎么样了

阅微札记
2026-02-25 16:56:12
贾宝玉大婚当晚,北静王抱起病榻上的黛玉:本王来接王妃回家

贾宝玉大婚当晚,北静王抱起病榻上的黛玉:本王来接王妃回家

千秋文化
2026-02-01 20:20:51
从2连败韩国到逆转日本,中国男篮实现蜕变!郭士强弃用1人太关键

从2连败韩国到逆转日本,中国男篮实现蜕变!郭士强弃用1人太关键

球场没跑道
2026-02-26 22:13:08
人不会无缘无故患湿疹!研究发现:得湿疹,离不开这6点

人不会无缘无故患湿疹!研究发现:得湿疹,离不开这6点

岐黄传人孙大夫
2026-01-15 07:35:03
美国国务院:已批准撤离

美国国务院:已批准撤离

第一财经资讯
2026-02-27 21:56:18
“体坛败类”马俊仁,强迫队员集体切阑尾,亲自为女队员打禁药

“体坛败类”马俊仁,强迫队员集体切阑尾,亲自为女队员打禁药

米果说识
2026-02-22 11:29:00
美伊谈判背后,美军“蝎子特遣队”已准备就绪?本土美国人困惑:到底是为了啥?

美伊谈判背后,美军“蝎子特遣队”已准备就绪?本土美国人困惑:到底是为了啥?

红星新闻
2026-02-27 19:40:20
曾志伟儿女现状:长子不生娃,次子离婚,小女儿远嫁,她至今未婚

曾志伟儿女现状:长子不生娃,次子离婚,小女儿远嫁,她至今未婚

冷紫葉
2026-02-11 17:08:41
北京93岁老人终身未娶、无儿无女,去世前将千万财产赠与照顾其12年的邻居,法院判了

北京93岁老人终身未娶、无儿无女,去世前将千万财产赠与照顾其12年的邻居,法院判了

大风新闻
2026-02-24 23:13:12
震惊!网传河北一女子短期内嫁两次,彩礼收取58万,还是黄花闺女

震惊!网传河北一女子短期内嫁两次,彩礼收取58万,还是黄花闺女

火山詩话
2026-02-27 13:34:31
一颗没卖出去!英伟达H200对华销量归零,美国芯片闹剧演砸了

一颗没卖出去!英伟达H200对华销量归零,美国芯片闹剧演砸了

通鉴史智
2026-02-27 19:13:49
山西婚闹致死案:新郎被4个伴郎暴打致死,婚礼结束直接办丧事

山西婚闹致死案:新郎被4个伴郎暴打致死,婚礼结束直接办丧事

明智家庭教育
2025-12-02 11:20:34
突发!阿森纳王牌被主帅主动甩卖,巴萨准备 2600 万捡漏

突发!阿森纳王牌被主帅主动甩卖,巴萨准备 2600 万捡漏

奶盖熊本熊
2026-02-27 06:47:20
原来他们是两口子,低调拍戏,都是国家一级演员,如今丁克也幸福

原来他们是两口子,低调拍戏,都是国家一级演员,如今丁克也幸福

卷史
2026-02-27 11:35:54
Stein:掘金和一些季后赛球队有意米德尔顿

Stein:掘金和一些季后赛球队有意米德尔顿

北青网-北京青年报
2026-02-27 19:53:05
新加坡大满贯赛:男单大爆冷!张本智和2:3被淘汰,国乒3人晋级

新加坡大满贯赛:男单大爆冷!张本智和2:3被淘汰,国乒3人晋级

国乒二三事
2026-02-27 20:22:31
德转:辽宁铁人约100万人民币签下恒大足校17岁后卫张洪福

德转:辽宁铁人约100万人民币签下恒大足校17岁后卫张洪福

懂球帝
2026-02-27 16:33:30
刘亦菲背影杀疯了!灰裤黑裙竟如此撩人,你顶得住吗?

刘亦菲背影杀疯了!灰裤黑裙竟如此撩人,你顶得住吗?

娱乐领航家
2026-02-26 20:00:04
2026-02-27 22:43:00
AI科技评论 incentive-icons
AI科技评论
点评学术,服务AI
7095文章数 20732关注度
往期回顾 全部

科技要闻

单张不到五毛!谷歌深夜发布Nano Banana 2

头条要闻

23岁博士研究生确诊胃癌晚期 坦言经常错过食堂饭点

头条要闻

23岁博士研究生确诊胃癌晚期 坦言经常错过食堂饭点

体育要闻

一场必须要赢的比赛,男篮何止击败了裁判

娱乐要闻

郭晶晶霍启刚现身香港艺术节尽显恩爱

财经要闻

沈明高提共富建议 百姓持科技股国家兜底

汽车要闻

岚图泰山黑武士版3月上市 搭载华为四激光智驾方案

态度原创

旅游
本地
数码
公开课
军事航空

旅游要闻

轻奢三日游!包往返+包住宿+包景点,全部都包!

本地新闻

津南好·四时总相宜

数码要闻

三星与美国德州达成协议,旗下智能电视不再默认“监视”当地居民

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美国11架F-22隐形战机抵达以色列

无障碍浏览 进入关怀版