网易首页 > 网易号 > 正文 申请入驻

多模态Deep Research,终于有了「可核验」的评测标准

0
分享至



Deep Research Agent 火了,但评测还停在「看起来很强 」。

写得像论文,不等于真的做了研究。

尤其当证据来自图表、截图、论文图、示意图时:模型到底是「看懂了」,还是 「编得像懂了」?

俄亥俄州立大学与 Amazon Science 联合牵头,联合多家高校与机构研究者发布MMDeepResearch-Bench(MMDR-Bench),试图把多模态 Deep Research 的评估从「读起来不错」,拉回到一个更硬的标准:过程可核验、证据可追溯、断言可对齐。

MMDR-Bench 与评测框架相关资源已公开:



  • 论文标题:MMDeepResearch-Bench: A Benchmark for Multimodal Deep Research Agents
  • 论文主页:https://mmdeepresearch-bench.github.io/
  • 论文链接: https://arxiv.org/abs/2601.12346
  • github 链接:https://github.com/AIoT-MLSys-Lab/MMDeepResearch-Bench
  • Huggingface 链接:https://huggingface.co/papers/2601.12346

当 Deep Research Agent 变得越来越常见,一个更现实的问题摆到了台面上:我们到底该怎么评价它的价值?很多时候,你很难用「答案对不对」去判一份研究型报告 —— 因为问题本身可能没有唯一标准答案。

真正决定可信度的,是过程纪律:有没有检索到可靠证据?关键断言有没有被引用支撑?引用是否真的对应这句话?以及最容易被忽略的一点:当证据来自图像时,它有没有「看对并用对」。

现有评测往往缺一块关键拼图:要么偏短问答(图表问答、文档问答),要么偏纯文本深研(长文 + 网页引用),很难覆盖端到端的「多模态深度研究」链路:既要写研究式长报告,又要把图像证据与文本断言逐句对齐,并且能审计、能追责。

01 为什么需要 MMDR-Bench:Deep Research 的「幻觉」不止发生在文本

在真实研究场景里,图像证据常常是不可替代的:曲线走势、轴标签与单位、表格关键单元格、截图里的开关状态、论文图中的对比结果……

这些信息一旦读错,就会把后续检索与合成带偏,最后变成一份「写得很像、引用很多,但根上错了」的报告。

问题在于,传统「引用评测」往往只看有没有 URL,却不追问 Claim–URL 是否真的支撑;传统「多模态评测」多是短问答,又覆盖不了 agent 的长链路检索与报告合成。MMDR-Bench 想做的,是把这两件事接起来:让多模态 deep research 的输出能被逐句核验。

02 MMDR-Bench 是什么:140 个专家任务,覆盖 19 个领域

MMDR-Bench 包含 140 个由领域专家打磨的任务,覆盖 19 个领域。每个任务都提供「图像 — 文本 bundle」:你不仅要检索网页、汇总证据,还必须解释并使用给定图像中的关键事实来支撑报告结论。

作者将任务划分为两种使用情境:

  • Daily:偏日常使用场景,输入多为截图、界面、噪声较高的图片,考察系统在不完整信息下的稳健理解与可核验写作。
  • Research:偏研究分析场景,输入多为图表、表格、示意图等信息密集视觉证据,强调细粒度读图与跨来源综合。





03 怎么评:不押「唯一答案」,押「证据链 + 过程对齐」

为了解决「开放式问题没有标准答案」的评测困境,MMDR-Bench 把评估拆成 3 段管线、12 个可定位指标,重点不在「结论是不是唯一正确」,而在「证据链是否站得住」。



(1)FLAE:可解释的长文质量评估(可审计)

长报告的要求随任务而变。FLAE 用可复现的文本特征公式(结构、可读性、覆盖度等)叠加任务自适应评审信号,避免「一把尺子量所有报告」,同时保证评分可回放、可解释。

(2)TRACE:Claim–URL 支撑核验,让引用不再是装饰

TRACE 将报告拆成原子断言,并对齐到引用 URL,检查是否支持、是否矛盾、是否过度推断,给出一致性、覆盖率与证据忠实度等指标。

更关键的是,它加入 Visual Evidence Fidelity(Vef.)作为硬约束:报告必须严格遵守题目给出的图文prompt,不得在分析题目时通过幻觉作答;一旦出现实体误识别、图中不存在却编造、数字、标签、映射关系读错,会被严格惩罚。

(3)MOSAIC:把「用到图像的句子」逐条对齐回图像本身

很多错误并不体现在 URL 上,而体现在「引用图像的句子」与图像内容不一致。MOSAIC 专门抽取这些多模态条目,按图表、照片、示意图等类型走不同核验规则,定位「看错图、用错图、引用图但没真正 grounded」的失败。

科研从来没有银弹。Deep Research 也是 —— 尤其当信息不完整、证据不确定时。与其赌一次性的「正确结果」,不如把尺子钉在过程:每一步检索、取证、引用与推理,都能被回放、被核对、被追责。

04 观察到的现象:强写作 ≠ 强证据;会看图 ≠ 会引用




在多个代表性系统 / 模型的实验中,可以看到非常清晰的分化:

  • 有的模型写作与结构很强,但 Claim–URL 对齐松散,容易出现「引用很多、支撑很弱」;
  • 有的模型能读图抓到信息,但长链路合成中发生实体漂移,把证据绑到错误对象上;
  • 有的系统检索覆盖率高,却在图像细节(小数字、轴标签、单位、映射关系)上翻车,导致视觉忠实度显著掉分。

也正因如此,能力并不会随着版本号线性上扬:有些模型读起来更「像一个会写的研究者」,但在证据对齐与多模态忠实度上仍会失分 —— 榜单上甚至不需要细看,一眼就能读出来。deep research 的关键瓶颈,正在从「能写」转向「能被查」。

05 更现实的意义:给 agent 对齐一个可训练的信号

Deep Research 的下一阶段,不是谁写得更像论文,而是谁的过程经得起核验。

MMDR-Bench 做的,就是把「经得起核验」这件事定成硬标准:每条关键断言都要能被证据接住,每个引用都要能被追溯到支撑点,每次用图都要能对齐到可观察事实。

这会直接改变系统迭代方式 —— 你不再凭感觉调 prompt,也不再被「看起来很强」的报告迷惑,而是用可定位的失败模式去驱动模型与工具链升级。

当评测开始追责过程,deep research 才真正进入可工程化的时代。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
报复开始!核心军工厂被炸毁,俄遭到重创,乌克兰已闯下弥天大祸

报复开始!核心军工厂被炸毁,俄遭到重创,乌克兰已闯下弥天大祸

安珈使者啊
2026-03-16 22:38:23
《好好的时光》大结局:刘成亲手害死自己儿子,林世俊送儿子入狱

《好好的时光》大结局:刘成亲手害死自己儿子,林世俊送儿子入狱

人间无味啊
2026-03-16 16:00:46
尴尬了!史诗狂怒变无能狂怒,特朗普摇人组建联军,却一个也摇不到

尴尬了!史诗狂怒变无能狂怒,特朗普摇人组建联军,却一个也摇不到

超级学爸蛋总
2026-03-16 18:50:52
飞机上大妈霸占座位,空姐劝阻遭辱骂,机长一句话让她面红耳赤

飞机上大妈霸占座位,空姐劝阻遭辱骂,机长一句话让她面红耳赤

今天说故事
2025-08-07 16:14:09
“开光改命”的瓜?

“开光改命”的瓜?

文刀万
2026-02-25 18:50:04
全球独此两棵!1960年在荒废的别墅中找到,嫁接后年产值81亿元

全球独此两棵!1960年在荒废的别墅中找到,嫁接后年产值81亿元

不写散文诗
2025-10-27 18:03:24
韩安冉直播自曝:我家500平大平层,隔音很好,每月要还18万房贷

韩安冉直播自曝:我家500平大平层,隔音很好,每月要还18万房贷

观鱼听雨
2026-03-15 23:23:01
我卖掉房子搬进儿子家,儿子:1500万到账,给我爸找了一家养老院

我卖掉房子搬进儿子家,儿子:1500万到账,给我爸找了一家养老院

大熊欢乐坊
2026-03-16 23:39:27
科怀·伦纳德的第14个NBA赛季,创造了快船队和NBA的历史

科怀·伦纳德的第14个NBA赛季,创造了快船队和NBA的历史

好火子
2026-03-17 05:38:02
罗马诺:廷贝尔和赖斯续约在即;阿森纳不太可能签下KK

罗马诺:廷贝尔和赖斯续约在即;阿森纳不太可能签下KK

懂球帝
2026-03-17 03:10:08
36岁轰40+10!近3战场均35+8,换不到库明加?勇士犯浑,比波神强

36岁轰40+10!近3战场均35+8,换不到库明加?勇士犯浑,比波神强

你的篮球频道
2026-03-16 13:27:53
江苏省退休人员迎来3个好消息!涉及养老金、医保待遇、丧葬费!

江苏省退休人员迎来3个好消息!涉及养老金、医保待遇、丧葬费!

虎哥闲聊
2026-03-16 10:42:12
现代足球压垮天才:16岁登欧冠,25岁黯然退役

现代足球压垮天才:16岁登欧冠,25岁黯然退役

郭夷包工头
2026-03-14 02:01:20
事业没了、婚也离了,封杀5年后赵薇再迎噩耗,深夜发文告别过去

事业没了、婚也离了,封杀5年后赵薇再迎噩耗,深夜发文告别过去

嘴角上翘
2026-03-15 01:48:02
内幕!张艺兴的瓜越来越大了,线索指向爆料人疑是张杰谢娜夫妇!

内幕!张艺兴的瓜越来越大了,线索指向爆料人疑是张杰谢娜夫妇!

小娱乐悠悠
2026-03-16 09:48:56
CBA罕见!队友之间发生激烈内讧,相互推搡 被主教练双双弃用

CBA罕见!队友之间发生激烈内讧,相互推搡 被主教练双双弃用

体育哲人
2026-03-16 22:51:40
重庆冠军赛国乒为何丢双冠?没想到,王楚钦会这么说,肖战要总结

重庆冠军赛国乒为何丢双冠?没想到,王楚钦会这么说,肖战要总结

小兰聊历史
2026-03-16 15:56:01
雪上加霜!中国女足VS澳大利亚队,又1主力将缺席比赛,原因曝光

雪上加霜!中国女足VS澳大利亚队,又1主力将缺席比赛,原因曝光

何老师呀
2026-03-16 20:47:11
欠中国的钱,委内瑞拉不还了?美财长:中国已无法继续获得委石油

欠中国的钱,委内瑞拉不还了?美财长:中国已无法继续获得委石油

萌城少年强
2026-01-22 12:47:40
女子穿瑜伽裤参加发小婚礼,打扮太火辣引争议,网友:跟没穿一样

女子穿瑜伽裤参加发小婚礼,打扮太火辣引争议,网友:跟没穿一样

白宸侃片
2026-03-16 12:02:23
2026-03-17 07:56:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12518文章数 142586关注度
往期回顾 全部

科技要闻

黄仁勋豪言2027年AI芯片收入剑指1万亿美元

头条要闻

外媒:美国已输掉了对伊朗的战争 一个动作令中国获益

头条要闻

外媒:美国已输掉了对伊朗的战争 一个动作令中国获益

体育要闻

那个送老奶奶去医院的球员 成了队史第一人

娱乐要闻

姚晨曹郁发离婚声明 多年前已结束婚姻

财经要闻

梁文锋推迟V4,是为根治龙虾的健忘症?

汽车要闻

大众全球首款9系旗舰SUV 上汽大众ID.ERA 9X首秀

态度原创

健康
教育
房产
家居
军事航空

转头就晕的耳石症,能开车上班吗?

教育要闻

同学们,醒醒吧,别再傻傻地去打游戏了!

房产要闻

操作真强!保利三亚,十年腊肉盘,要大规模商改住了!

家居要闻

简约之美 尘埃落定

军事要闻

激烈攻防暴露美军中东反导漏洞

无障碍浏览 进入关怀版