网易首页 > 网易号 > 正文 申请入驻

多模态Deep Research,终于有了「可核验」的评测标准

0
分享至



Deep Research Agent 火了,但评测还停在「看起来很强 」。

写得像论文,不等于真的做了研究。

尤其当证据来自图表、截图、论文图、示意图时:模型到底是「看懂了」,还是 「编得像懂了」?

俄亥俄州立大学与 Amazon Science 联合牵头,联合多家高校与机构研究者发布MMDeepResearch-Bench(MMDR-Bench),试图把多模态 Deep Research 的评估从「读起来不错」,拉回到一个更硬的标准:过程可核验、证据可追溯、断言可对齐。

MMDR-Bench 与评测框架相关资源已公开:



  • 论文标题:MMDeepResearch-Bench: A Benchmark for Multimodal Deep Research Agents
  • 论文主页:https://mmdeepresearch-bench.github.io/
  • 论文链接: https://arxiv.org/abs/2601.12346
  • github 链接:https://github.com/AIoT-MLSys-Lab/MMDeepResearch-Bench
  • Huggingface 链接:https://huggingface.co/papers/2601.12346

当 Deep Research Agent 变得越来越常见,一个更现实的问题摆到了台面上:我们到底该怎么评价它的价值?很多时候,你很难用「答案对不对」去判一份研究型报告 —— 因为问题本身可能没有唯一标准答案。

真正决定可信度的,是过程纪律:有没有检索到可靠证据?关键断言有没有被引用支撑?引用是否真的对应这句话?以及最容易被忽略的一点:当证据来自图像时,它有没有「看对并用对」。

现有评测往往缺一块关键拼图:要么偏短问答(图表问答、文档问答),要么偏纯文本深研(长文 + 网页引用),很难覆盖端到端的「多模态深度研究」链路:既要写研究式长报告,又要把图像证据与文本断言逐句对齐,并且能审计、能追责。

01 为什么需要 MMDR-Bench:Deep Research 的「幻觉」不止发生在文本

在真实研究场景里,图像证据常常是不可替代的:曲线走势、轴标签与单位、表格关键单元格、截图里的开关状态、论文图中的对比结果……

这些信息一旦读错,就会把后续检索与合成带偏,最后变成一份「写得很像、引用很多,但根上错了」的报告。

问题在于,传统「引用评测」往往只看有没有 URL,却不追问 Claim–URL 是否真的支撑;传统「多模态评测」多是短问答,又覆盖不了 agent 的长链路检索与报告合成。MMDR-Bench 想做的,是把这两件事接起来:让多模态 deep research 的输出能被逐句核验。

02 MMDR-Bench 是什么:140 个专家任务,覆盖 19 个领域

MMDR-Bench 包含 140 个由领域专家打磨的任务,覆盖 19 个领域。每个任务都提供「图像 — 文本 bundle」:你不仅要检索网页、汇总证据,还必须解释并使用给定图像中的关键事实来支撑报告结论。

作者将任务划分为两种使用情境:

  • Daily:偏日常使用场景,输入多为截图、界面、噪声较高的图片,考察系统在不完整信息下的稳健理解与可核验写作。
  • Research:偏研究分析场景,输入多为图表、表格、示意图等信息密集视觉证据,强调细粒度读图与跨来源综合。





03 怎么评:不押「唯一答案」,押「证据链 + 过程对齐」

为了解决「开放式问题没有标准答案」的评测困境,MMDR-Bench 把评估拆成 3 段管线、12 个可定位指标,重点不在「结论是不是唯一正确」,而在「证据链是否站得住」。



(1)FLAE:可解释的长文质量评估(可审计)

长报告的要求随任务而变。FLAE 用可复现的文本特征公式(结构、可读性、覆盖度等)叠加任务自适应评审信号,避免「一把尺子量所有报告」,同时保证评分可回放、可解释。

(2)TRACE:Claim–URL 支撑核验,让引用不再是装饰

TRACE 将报告拆成原子断言,并对齐到引用 URL,检查是否支持、是否矛盾、是否过度推断,给出一致性、覆盖率与证据忠实度等指标。

更关键的是,它加入 Visual Evidence Fidelity(Vef.)作为硬约束:报告必须严格遵守题目给出的图文prompt,不得在分析题目时通过幻觉作答;一旦出现实体误识别、图中不存在却编造、数字、标签、映射关系读错,会被严格惩罚。

(3)MOSAIC:把「用到图像的句子」逐条对齐回图像本身

很多错误并不体现在 URL 上,而体现在「引用图像的句子」与图像内容不一致。MOSAIC 专门抽取这些多模态条目,按图表、照片、示意图等类型走不同核验规则,定位「看错图、用错图、引用图但没真正 grounded」的失败。

科研从来没有银弹。Deep Research 也是 —— 尤其当信息不完整、证据不确定时。与其赌一次性的「正确结果」,不如把尺子钉在过程:每一步检索、取证、引用与推理,都能被回放、被核对、被追责。

04 观察到的现象:强写作 ≠ 强证据;会看图 ≠ 会引用




在多个代表性系统 / 模型的实验中,可以看到非常清晰的分化:

  • 有的模型写作与结构很强,但 Claim–URL 对齐松散,容易出现「引用很多、支撑很弱」;
  • 有的模型能读图抓到信息,但长链路合成中发生实体漂移,把证据绑到错误对象上;
  • 有的系统检索覆盖率高,却在图像细节(小数字、轴标签、单位、映射关系)上翻车,导致视觉忠实度显著掉分。

也正因如此,能力并不会随着版本号线性上扬:有些模型读起来更「像一个会写的研究者」,但在证据对齐与多模态忠实度上仍会失分 —— 榜单上甚至不需要细看,一眼就能读出来。deep research 的关键瓶颈,正在从「能写」转向「能被查」。

05 更现实的意义:给 agent 对齐一个可训练的信号

Deep Research 的下一阶段,不是谁写得更像论文,而是谁的过程经得起核验。

MMDR-Bench 做的,就是把「经得起核验」这件事定成硬标准:每条关键断言都要能被证据接住,每个引用都要能被追溯到支撑点,每次用图都要能对齐到可观察事实。

这会直接改变系统迭代方式 —— 你不再凭感觉调 prompt,也不再被「看起来很强」的报告迷惑,而是用可定位的失败模式去驱动模型与工具链升级。

当评测开始追责过程,deep research 才真正进入可工程化的时代。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
赚翻了!小伙5个月用AI做120多个App:只需验收上架 90%都有付费用户

赚翻了!小伙5个月用AI做120多个App:只需验收上架 90%都有付费用户

快科技
2026-02-14 11:41:14
华为通报出来了:华为老员工邓某被逮捕,任正非果然留了一手

华为通报出来了:华为老员工邓某被逮捕,任正非果然留了一手

花小猫的美食日常
2026-02-13 15:59:20
谁能想到,马云对美团王兴的复仇,一等就是整整十年

谁能想到,马云对美团王兴的复仇,一等就是整整十年

流苏晚晴
2025-12-29 18:31:44
《生命树》大结局:直到白芍爬上韩学超床,才知,冯克青背后是谁

《生命树》大结局:直到白芍爬上韩学超床,才知,冯克青背后是谁

一窥究竟
2026-02-14 16:17:55
近距离看46岁董璇,满脸横肉嘴歪,跟张维伊不搭,比刘晓庆状态差

近距离看46岁董璇,满脸横肉嘴歪,跟张维伊不搭,比刘晓庆状态差

白面书誏
2026-02-14 18:06:47
工资太低!场均30分10助超级外援,拒绝CBA球队报价

工资太低!场均30分10助超级外援,拒绝CBA球队报价

体育哲人
2026-02-14 22:11:28
6930万欧元打水漂?阿森纳引援失策,埃泽成球迷心头刺!

6930万欧元打水漂?阿森纳引援失策,埃泽成球迷心头刺!

田先生篮球
2026-02-13 20:50:59
乌东防线多米诺效应开始了

乌东防线多米诺效应开始了

星火聊天下
2026-02-12 08:49:13
马伟明猜中了,百亿核航母变成烂尾工程,军方给出最后的期限

马伟明猜中了,百亿核航母变成烂尾工程,军方给出最后的期限

安安说
2026-02-14 08:30:34
火箭队记:早知道他受伤,就不要KD!杜兰特:别给自己太大的压力

火箭队记:早知道他受伤,就不要KD!杜兰特:别给自己太大的压力

你的篮球频道
2026-02-14 14:56:14
谁打满65场,谁就是MVP?约基奇已缺16场,077缺12场,文班缺14场

谁打满65场,谁就是MVP?约基奇已缺16场,077缺12场,文班缺14场

无术不学
2026-02-14 12:00:11
59岁宋祖英现身活动状态惊艳!短发利落大气,黑色套装优雅端庄

59岁宋祖英现身活动状态惊艳!短发利落大气,黑色套装优雅端庄

琴声飞扬
2026-02-12 11:51:25
天呐!刘亦菲妈妈被偶遇,都 65 岁了,还是美得不像话!太让人羡

天呐!刘亦菲妈妈被偶遇,都 65 岁了,还是美得不像话!太让人羡

陈意小可爱
2026-02-14 18:12:58
加拿大冰壶男队比赛中用手作弊,被发现后双方互相辱骂

加拿大冰壶男队比赛中用手作弊,被发现后双方互相辱骂

懂球帝
2026-02-14 20:00:10
松永早姬:我出生在日本,但为了世界杯我决定为中国台北效力

松永早姬:我出生在日本,但为了世界杯我决定为中国台北效力

懂球帝
2026-02-14 16:39:23
5000 万王牌彻底沉沦!曼联弃将被骂到抬不起头,已成笑柄

5000 万王牌彻底沉沦!曼联弃将被骂到抬不起头,已成笑柄

澜归序
2026-02-14 17:47:55
52岁龙丹妮上热搜,网友:舞是龙丹妮跳的,面子是前男友李维丢的

52岁龙丹妮上热搜,网友:舞是龙丹妮跳的,面子是前男友李维丢的

她时尚丫
2026-02-13 22:55:36
和王立军留下经典合影的周京平,刚刚被官宣双开!

和王立军留下经典合影的周京平,刚刚被官宣双开!

霹雳炮
2026-02-13 22:50:10
纪实:四川18岁校花被51岁和尚藏禅房3个月,被解救时已神志不清

纪实:四川18岁校花被51岁和尚藏禅房3个月,被解救时已神志不清

谈史论天地
2026-02-05 12:38:12
A股:节后稳了!央行突发“利好信号”,这几个板块将直接起飞!

A股:节后稳了!央行突发“利好信号”,这几个板块将直接起飞!

云鹏叙事
2026-02-14 12:17:57
2026-02-15 00:32:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12310文章数 142567关注度
往期回顾 全部

科技要闻

字节跳动官宣豆包大模型今日进入2.0阶段

头条要闻

福州街头发现一流浪老人身份成谜 程序员精准破解方言

头条要闻

福州街头发现一流浪老人身份成谜 程序员精准破解方言

体育要闻

最戏剧性的花滑男单,冠军为什么是他?

娱乐要闻

春晚第五次联排路透 明星积极饭撒互动

财经要闻

谁在掌控你的胃?起底百亿"飘香剂"江湖

汽车要闻

星光730新春促销开启 80天销量破2.6万台

态度原创

房产
亲子
本地
艺术
公开课

房产要闻

三亚新机场,又传出新消息!

亲子要闻

与其昧着良心,这糖不吃也罢!

本地新闻

下一站是嘉禾望岗,请各位乘客做好哭泣准备

艺术要闻

418米!浙江最高楼,即将“破土而出”

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版