网易首页 > 网易号 > 正文 申请入驻

多模态Deep Research,终于有了「可核验」的评测标准

0
分享至

来源:市场资讯

(来源:机器之心)


Deep Research Agent 火了,但评测还停在「看起来很强 」。

写得像论文,不等于真的做了研究。

尤其当证据来自图表、截图、论文图、示意图时:模型到底是「看懂了」,还是 「编得像懂了」?

俄亥俄州立大学与 Amazon Science 联合牵头,联合多家高校与机构研究者发布 MMDeepResearch-Bench(MMDR-Bench),试图把多模态 Deep Research 的评估从「读起来不错」,拉回到一个更硬的标准:过程可核验、证据可追溯、断言可对齐。

MMDR-Bench 与评测框架相关资源已公开:


  • 论文标题:MMDeepResearch-Bench: A Benchmark for Multimodal Deep Research Agents

  • 论文主页:https://mmdeepresearch-bench.github.io/

  • 论文链接: https://arxiv.org/abs/2601.12346

  • github 链接:https://github.com/AIoT-MLSys-Lab/MMDeepResearch-Bench

  • Huggingface 链接:https://huggingface.co/papers/2601.12346

当 Deep Research Agent 变得越来越常见,一个更现实的问题摆到了台面上:我们到底该怎么评价它的价值?很多时候,你很难用「答案对不对」去判一份研究型报告 —— 因为问题本身可能没有唯一标准答案。

真正决定可信度的,是过程纪律:有没有检索到可靠证据?关键断言有没有被引用支撑?引用是否真的对应这句话?以及最容易被忽略的一点:当证据来自图像时,它有没有「看对并用对」。

现有评测往往缺一块关键拼图:要么偏短问答(图表问答、文档问答),要么偏纯文本深研(长文 + 网页引用),很难覆盖端到端的「多模态深度研究」链路:既要写研究式长报告,又要把图像证据与文本断言逐句对齐,并且能审计、能追责。

01 为什么需要 MMDR-Bench:Deep Research 的「幻觉」不止发生在文本

在真实研究场景里,图像证据常常是不可替代的:曲线走势、轴标签与单位、表格关键单元格、截图里的开关状态、论文图中的对比结果……

这些信息一旦读错,就会把后续检索与合成带偏,最后变成一份「写得很像、引用很多,但根上错了」的报告。

问题在于,传统「引用评测」往往只看有没有 URL,却不追问 Claim–URL 是否真的支撑;传统「多模态评测」多是短问答,又覆盖不了 agent 的长链路检索与报告合成。MMDR-Bench 想做的,是把这两件事接起来:让多模态 deep research 的输出能被逐句核验。

02 MMDR-Bench 是什么:140 个专家任务,覆盖 19 个领域

MMDR-Bench 包含 140 个由领域专家打磨的任务,覆盖 19 个领域。每个任务都提供「图像 — 文本 bundle」:你不仅要检索网页、汇总证据,还必须解释并使用给定图像中的关键事实来支撑报告结论。

作者将任务划分为两种使用情境:

  • Daily:偏日常使用场景,输入多为截图、界面、噪声较高的图片,考察系统在不完整信息下的稳健理解与可核验写作。

  • Research:偏研究分析场景,输入多为图表、表格、示意图等信息密集视觉证据,强调细粒度读图与跨来源综合。



03 怎么评:不押「唯一答案」,押「证据链 + 过程对齐」

为了解决「开放式问题没有标准答案」的评测困境,MMDR-Bench 把评估拆成 3 段管线、12 个可定位指标,重点不在「结论是不是唯一正确」,而在「证据链是否站得住」。


(1)FLAE:可解释的长文质量评估(可审计)

长报告的要求随任务而变。FLAE 用可复现的文本特征公式(结构、可读性、覆盖度等)叠加任务自适应评审信号,避免「一把尺子量所有报告」,同时保证评分可回放、可解释。

(2)TRACE:Claim–URL 支撑核验,让引用不再是装饰

TRACE 将报告拆成原子断言,并对齐到引用 URL,检查是否支持、是否矛盾、是否过度推断,给出一致性、覆盖率与证据忠实度等指标。

更关键的是,它加入 Visual Evidence Fidelity(Vef.)作为硬约束:报告必须严格遵守题目给出的图文prompt,不得在分析题目时通过幻觉作答;一旦出现实体误识别、图中不存在却编造、数字、标签、映射关系读错,会被严格惩罚。

(3)MOSAIC:把「用到图像的句子」逐条对齐回图像本身

很多错误并不体现在 URL 上,而体现在「引用图像的句子」与图像内容不一致。MOSAIC 专门抽取这些多模态条目,按图表、照片、示意图等类型走不同核验规则,定位「看错图、用错图、引用图但没真正 grounded」的失败。

科研从来没有银弹。Deep Research 也是 —— 尤其当信息不完整、证据不确定时。与其赌一次性的「正确结果」,不如把尺子钉在过程:每一步检索、取证、引用与推理,都能被回放、被核对、被追责。

04 观察到的现象:强写作 ≠ 强证据;会看图 ≠ 会引用


在多个代表性系统 / 模型的实验中,可以看到非常清晰的分化:

  • 有的模型写作与结构很强,但 Claim–URL 对齐松散,容易出现「引用很多、支撑很弱」;

  • 有的模型能读图抓到信息,但长链路合成中发生实体漂移,把证据绑到错误对象上;

  • 有的系统检索覆盖率高,却在图像细节(小数字、轴标签、单位、映射关系)上翻车,导致视觉忠实度显著掉分。

也正因如此,能力并不会随着版本号线性上扬:有些模型读起来更「像一个会写的研究者」,但在证据对齐与多模态忠实度上仍会失分 —— 榜单上甚至不需要细看,一眼就能读出来。deep research 的关键瓶颈,正在从「能写」转向「能被查」。

05 更现实的意义:给 agent 对齐一个可训练的信号

Deep Research 的下一阶段,不是谁写得更像论文,而是谁的过程经得起核验。

MMDR-Bench 做的,就是把「经得起核验」这件事定成硬标准:每条关键断言都要能被证据接住,每个引用都要能被追溯到支撑点,每次用图都要能对齐到可观察事实。

这会直接改变系统迭代方式 —— 你不再凭感觉调 prompt,也不再被「看起来很强」的报告迷惑,而是用可定位的失败模式去驱动模型与工具链升级。

当评测开始追责过程,deep research 才真正进入可工程化的时代。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
你在体制内捅过的最大篓子是啥? 网友:人怎么能捅这么大的篓子

你在体制内捅过的最大篓子是啥? 网友:人怎么能捅这么大的篓子

带你感受人间冷暖
2026-02-13 10:06:39
最新报告曝美国只剩7个紧密盟友

最新报告曝美国只剩7个紧密盟友

财联社
2026-02-14 15:59:47
SpaceX龙飞船成功发射,四国宇航员奔赴国际空间站

SpaceX龙飞船成功发射,四国宇航员奔赴国际空间站

老马拉车莫少装
2026-02-13 19:58:33
澡堂女师傅穿三角裤连轴转,这画面不香艳,全是拿命换钱的残忍。

澡堂女师傅穿三角裤连轴转,这画面不香艳,全是拿命换钱的残忍。

小鹿姐姐情感说
2026-02-13 11:32:19
谁给的胆子?日本右翼发出狂言:夺取中国核心资源,还要断绝外交

谁给的胆子?日本右翼发出狂言:夺取中国核心资源,还要断绝外交

呼呼历史论
2026-02-14 22:15:27
征服中年女人,无需套路:两颗真心,一生相守

征服中年女人,无需套路:两颗真心,一生相守

青苹果sht
2025-11-04 06:10:40
几百名癌症科专家已证实:吸烟和肺癌的关系,最好花点时间看看

几百名癌症科专家已证实:吸烟和肺癌的关系,最好花点时间看看

九哥聊军事
2026-02-03 19:49:59
那个教小米做手机的厂商,要断气了

那个教小米做手机的厂商,要断气了

蓝字计划
2026-02-14 11:40:57
杨瀚森NBA新秀赛砍10分2篮板,再次证明他只能打低级别比赛!

杨瀚森NBA新秀赛砍10分2篮板,再次证明他只能打低级别比赛!

爱体育
2026-02-14 22:26:11
巴西名宿卡福参加NBA全明星名人赛,赛前颠球入场引欢呼

巴西名宿卡福参加NBA全明星名人赛,赛前颠球入场引欢呼

懂球帝
2026-02-14 11:19:07
看了鸨鸟怎么交配,才知道古代青楼的老板娘,为何叫“老鸨”!

看了鸨鸟怎么交配,才知道古代青楼的老板娘,为何叫“老鸨”!

热点大放送
2026-02-12 20:22:49
除夕晚上拜年,别只会说“新年快乐”,送您几句祝福语,高级走心

除夕晚上拜年,别只会说“新年快乐”,送您几句祝福语,高级走心

神牛
2026-02-14 15:57:41
撕合同还想耍赖?国际仲裁一开,巴拿马全球资产都要保不住

撕合同还想耍赖?国际仲裁一开,巴拿马全球资产都要保不住

百科密码
2026-02-13 16:20:09
太惨了!日本队长遭遇重伤,世界杯开打前森保一损失数名大将

太惨了!日本队长遭遇重伤,世界杯开打前森保一损失数名大将

里芃芃体育
2026-02-14 09:32:43
还没完!闫学晶偷漏税新进展,新疆班有新情况,这一步咎由自取

还没完!闫学晶偷漏税新进展,新疆班有新情况,这一步咎由自取

观察鉴娱
2026-02-14 09:57:14
张雪峰:如果你不好好学习,一旦掉入社会底层,和一群没有素质的人混在一起.....

张雪峰:如果你不好好学习,一旦掉入社会底层,和一群没有素质的人混在一起.....

山东教育
2026-01-27 11:38:18
TOP14位身高170以上的女神,有颜有灯有演技

TOP14位身高170以上的女神,有颜有灯有演技

素然追光
2026-01-02 02:45:02
我带着70万去儿子家住半月,天天喝稀饭,孙子:等你走人了吃排骨

我带着70万去儿子家住半月,天天喝稀饭,孙子:等你走人了吃排骨

小影的娱乐
2026-02-14 21:46:25
阿里、抖音、百度等平台大佬被集体约谈,释放出什么重要信号?

阿里、抖音、百度等平台大佬被集体约谈,释放出什么重要信号?

识局Insight
2026-02-14 23:09:18
越来越乱!贝克汉姆或将迎来第一个长孙,但不是儿子的亲生血脉

越来越乱!贝克汉姆或将迎来第一个长孙,但不是儿子的亲生血脉

她不倾国倾城
2026-02-08 15:21:22
2026-02-15 00:08:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2220860文章数 5476关注度
往期回顾 全部

科技要闻

字节跳动官宣豆包大模型今日进入2.0阶段

头条要闻

福州街头发现一流浪老人身份成谜 程序员精准破解方言

头条要闻

福州街头发现一流浪老人身份成谜 程序员精准破解方言

体育要闻

最戏剧性的花滑男单,冠军为什么是他?

娱乐要闻

春晚第五次联排路透 明星积极饭撒互动

财经要闻

谁在掌控你的胃?起底百亿"飘香剂"江湖

汽车要闻

星光730新春促销开启 80天销量破2.6万台

态度原创

艺术
房产
亲子
旅游
公开课

艺术要闻

418米!浙江最高楼,即将“破土而出”

房产要闻

三亚新机场,又传出新消息!

亲子要闻

与其昧着良心,这糖不吃也罢!

旅游要闻

这个春节不必远走,来芦芽山感受不一样的年味!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版