![]()
人大&小红书推出OmniGAIA基准和OmniAtlas智能体。
人类的智能是自然交织的——我们不仅同时用眼睛看、用耳朵听、用语言交流,还能进行复杂的长逻辑链推理,并在遇到难题时熟练使用搜索引擎等外部工具来辅助自己完成任务。
然而,当前爆火的“多模态大模型(MLLM)”大多仍局限于“图文”或“音文”的双模态交互。它们严重缺乏作为“通用AI助手”所必需的全模态统筹、长程推理与工具调用能力。
为了填补这一空白,中国人民大学联合小红书、东南大学、浙江大学和清华大学的研究团队重磅推出了 OmniGAIA——一个专为评估“原生全模态AI智能体”而设计的新基准,并同时开源了配套的基础智能体训练秘籍 OmniAtlas!
该工作不仅揭示了当前开源模型与顶尖闭源模型之间的巨大“智能鸿沟”,更给出了一套让大模型真正学会“看、听、想与用工具”的实战配方。目前代码、数据、模型已全面开源!
![]()
论文链接: https://arxiv.org/pdf/2602.22897
代码&Demo:https://github.com/RUC-NLPIR/OmniGAIA
数据集&模型:https://huggingface.co/collections/RUC-NLPIR/omnigaia
排行榜:https://huggingface.co/spaces/RUC-NLPIR/OmniGAIA-LeaderBoard
01
Demo
1. 图片+音频任务:计算图片和音频中两个事件发生时间相隔多久?
2. 带音频的视频任务:视频中讲者提到了一个某电影中的桥,请帮我调研其背景。
02
痛点直击:现有的评测为什么不够看
随着 Qwen3-Omni、Gemini-3 等全模态大模型的涌现,模型已经能在单一网络内统一处理文本、视觉和音频。但现有的评测基准(如 OmniBench、WorldSense 等)大多基于极短的音视频,且题型多为重“感知”的多项选择题。
在真实世界中,我们需要 AI 解决的问题是这样的:
“视频里导游指着远处的那座活动桥,解说提到这让他想起了电影《福禄双霸天》。请问这座桥到底叫什么名字?在1979年电影开拍时,这座桥已经建成了多少年?”
![]()
这就要求 AI 不能只会“看图说话”,它必须面对几十分钟的长视频,从中锚定地理位置,主动去搜索引擎查证桥的真实名字和建成年份,最后进行相关计算。
现有的评测测不出这种能力,OmniGAIA因此应运而生!
03
OmniGAIA:全模态智能体的新基准
OmniGAIA 包含360个源自真实世界的高难度任务,覆盖地理、历史、科技等 9 大垂直领域。输入不仅包含时长数十分钟的“视频+音频”,还有复杂的“图片+音频”组合。模型不能靠盲猜,必须多次调用外部工具才能得出唯一可验证的开放式最终答案。
它是如何构建出来的?——首创“全模态事件图谱”驱动法
![]()
为了自动合成逻辑严密且防作弊的高难度QA,团队设计了一套极其精妙的流水线:
1.数据收集:从 FineVideo、LongVideoBench、LongVideo-Reason、COCO 2017 以及HuggingFace 中筛选并整理视频(含音频)及“图像+音频”数据源,覆盖 100 多个不同的垂直领域。
2.高价值信息挖掘:使用Gemini-3-Flash 提取事件、进行环境分析、音频分析(包含自动语音识别 ASR、说话人身份识别 Speaker ID)以及图像理解(包含光学字符识别 OCR、物体识别、人脸识别)。
3.智能体全模态事件图谱构建:DeepSeek-V3.2通过规划后续步骤、利用工具获取新信息,并结合大语言模型 (LLM) 的自我反思(self-reflexion) 与人工审查来验证事实准确性,从而迭代式地扩展初始事件图谱。
4.问答生成与质量审查:通过事件模糊化(fuzzification) 生成高难度的多跳(multi-hop) 问答对,随后由 LLM 和人工共同验证其准确性、任务难度以及答案的唯一性。
04
OmniAtlas:原生全模态智能体基座模型
在严苛的测试下,早期的开源模型表现较差。为了提升开源全模态模型的 Agent 能力,团队不仅提出了基准,更给出了一套开源解法与完整的“训练秘籍”——OmniAtlas。
![]()
它遵循工具集成推理范式,包含三大核心杀手锏:
1.主动全模态感知(Active Perception)
面对超长视频或高清大图,传统的“全局降采样”会丢失大量细节。OmniAtlas 赋予了模型“指哪看哪、听哪”的特技!它可以通过内置工具(read_video / read_audio / read_image)精准截取特定时间段的视频或裁剪特定区域的图片,实现高保真的按需感知。
2.高质量轨迹合成与监督微调
团队利用强大的推理模型进行“后见之明引导的树探索”,在已知正确答案的引导下,剪枝掉错误分支,合成出完美的“思考+工具调用”成功轨迹。在监督微调阶段,采用掩码监督(Masked SFT),只对模型生成的“思考和动作”算 Loss,屏蔽掉外部工具返回的冗长噪音,让模型真正学会“如何思考”。
3. OmniDPO细粒度纠错
全模态任务极易“一步错,步步错”。团队首创了OmniDPO,能够精准定位失败轨迹中的“第一处错误点”(到底是没看清、听漏了,还是搜索关键词用错了?),并生成纠正后的正确前缀,构建正负样本对进行偏好优化,实现真正的“对症下药”!。
05
实验结果:性能鸿沟与成因
1.主实验结果:在OmniGAIA上对比全模态模型的性能
![]()
团队在统一提供外部工具(搜索、浏览器、代码)的严苛环境下评测了各大前沿模型,我们可以发现:
1.闭源王者断崖领先:最强的闭源模型 Gemini-3-Pro 拿下了62.5% 的一次通过率(Pass@1),展现出极其成熟的规划与验证能力。而最强的开源基线 Qwen-3-Omni (30B) 仅有13.3%,差距近乎 4.7 倍!
2.“大力出奇迹”失效:拥有高达5600亿 (560B) 庞大参数量的 LongCat-Flash-Omni 得分甚至不如 30B 的小模型!这证明了:在全模态Agent领域,优秀的“智能体工具调用策略”比单纯的参数规模更关键。
3.OmniAtlas疗效显著:经过OmniAtlas 训练配方优化的 Qwen-3-Omni,准确率从 13.3% 暴涨至 20.8% (+7.5)!在较小的 7B 模型上,更是提升了近 4 倍(3.6% ➡️ 13.3%)。
2.细粒度错误分析:AI到底错在了哪一步?
![]()
通过对模型失败轨迹的解剖,研究发现:在困难任务中,开源模型有高达 90% 以上的失败源于“没有正确使用工具”(比如没有调用工具,陷入搜索死循环、查错方向),这直接导致了下游任务完成的全面崩溃。
3.工具调用行为分析
![]()
AI 到底该调用几次工具?散点分布图(Violin Plot)揭示了有趣的现象:
“工具冷漠症”:完全不用工具的模型(集中在 0 次),成功率很低。这证实了仅靠模型脑内的先验知识,根本搞不定复杂的真实环境。
调得多就一定好吗?错!部分失败轨迹调用了 10~20 次以上工具,但全在做低效重复的无用功,无法有效解决不确定性。
从被动到主动:OmniAtlas 的工具调用分布更加主动,有效探索率的大幅提升直接拉动了过关率,但也带来了工具调用冗余的问题,希望后续工作可以更好的平衡性能与效率。
4.原生全模态感知vs外挂感知工具,哪个更好?
![]()
我们真的需要原生全模态大模型吗?能不能用纯文本大模型,外挂一个“识图/听音 API”来代替?消融实验给出了答案:
1.对强模型来说,原生才是王道:Gemini-3-Flash依靠原生感知拿到最高分 51.7,且工具调用仅需 4.4 次。如果把感知拆分成外部工具,不仅成绩下降,API调用成本更是翻倍(增至 9.4 次)。
2.外挂工具打不了“硬仗”:对于较弱的开源模型,外挂感知工具虽然能在简单题上提点分,但在需要复杂跨模态推理的 Hard 难题中,成绩直接崩盘(从 9.0 跌至 3.9)。
结论:外挂工具会切断模态间的内在联系,原生全模态融合,才是拔高AI智能上限的唯一正解!
06
总结与未来展望
看得清、听得懂只是起点,会思考、善用工具、能行动才是迈向通用人工智能(AGI)的试金石。
OmniGAIA 揭开了现有全模态大模型在“长程推理与多轮工具使用”上的缺陷,而OmniAtlas 的全套硬核实验剖析则为开源社区指明了一条极具潜力的演进路线。研究团队指出,通往真正原生全模态 AI 助手的道路上,未来有三大黄金赛道:
1.全模态智能体强化学习(Agentic RL):在真实全模态反馈下直接优化长视野决策策略。
2.全模态MCP生态:为全模态智能体接入更多工具,打造可扩展的MCP工具集。
3.全模态具身智能(Embodied Agents):将拥有“全模态大脑”的智能体引入物理世界,完成真实世界的交互,来打造我们生活中的AI助手。
07
作者信息
![]()
本工作第一作者李晓熙,目前就读于中国人民大学高瓴人工智能学院,博士三年级,研究方向主要包括Agentic AI、Deep Research、大模型推理、强化学习等。在国际顶级会议NeurIPS,ICLR,ACL等发表7篇一作工作,代表工作包括DeepAgent, WebThinker, Search-o1, RetroLLM等。2025 年起,他在小红书参加 RedStar 实习项目,进行Agentic AI和Deep Research领域的研究工作。
![]()
本文的通信作者窦志成,中国人民大学高瓴人工智能学院长聘教授、博士生导师、副院长。主要研究方向为信息检索、大模型、智能体、大模型检索增强、AI搜索、司法智能等。在国际知名学术会议和期刊上发表论文200余篇,带领团队研发涉外法治大模型,开源大模型检索增强工具包FlashRAG、iAgent系列信息智能体(WebThinker、ARPO、DeepAgent等)累计获得GitHub星标1万余枚。
未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!
公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.