网易首页 > 网易号 > 正文 申请入驻

AI读不懂文档结构?计算所重构Agentic RAG文档推理能力

0
分享至


新智元报道

编辑:LRST

【新智元导读】DeepRead让AI像人一样阅读文档:利用OCR识别章节结构,先精准定位相关段落,再完整读取上下文,避免碎片化检索。实验显示,其长文档问答准确率提升17%,能自动跳过冗余信息,精准提取财报、论文等复杂内容,无需额外知识图谱,轻量高效。

大语言模型的工具使用能力正推动RAG从静态的一次性检索,向自主、多轮的证据获取进化,Agentic RAG已成为解决复杂问答任务的核心方向。

但现有主流Agentic Search框架普遍存在一个关键痛点——结构盲:它们将长文档视为无差别的扁平文本块,忽略了文档原生的层级组织(如章节、段落)和顺序逻辑,导致检索碎片化、证据遗漏、冗余操作等问题频发。

比如说,人类查询「ACL论文投稿要求」时,会先翻阅目录找到「投稿指南」章节,再逐段精读关键信息。

但传统Agentic Search(如Search-o1)却只能通过不断给出新的query反复检索,可能遗漏「页码限制」「格式要求」等未被关键词覆盖的内容,还会重复获取已浏览过的片段。


这种「结构盲」带来三大问题:

  1. 证据碎片化:将文档拆分为固定大小的文本块,破坏语义连贯性,迫使智能体拼接零散片段;

  2. 检索冗余:缺乏全局结构认知,反复检索同类信息,浪费计算资源;

  3. 信息遗漏:依赖关键词匹配,无法捕获章节内隐含的相关信息。

而现代OCR技术已能精准提取文档的层级结构和阅读顺序,这为解决「结构盲」提供了基础——让智能体学会利用这些原生结构,而非忽视它们。

中国科学院计算技术研究所团队提出的DeepRead,核心创新是将文档结构转化为智能体可理解、可操作的坐标系统,通过两大工具协同实现类人推理,整体框架参考下图。


论文:https://arxiv.org/abs/2602.05014

代码:https://github.com/Zhanli-Li/DeepRead


文档结构建模:给每个段落分配「坐标」

DeepRead首先通过OCR工具将原始文档转化为结构化Markdown格式,构建双维度结构模型:

  • 层级维度:区分标题(如章节)和内容段落,记录标题的父子关系(如「2.方法」包含「2.1模型设计」);

  • 顺序维度:给每个段落分配唯一坐标(doc_id, sec_id, para_idx),即「文档ID-章节ID-段落索引」,让每个文本片段都有明确的位置标识。

同时,DeepRead会将轻量化的目录(TOC)注入系统提示,让智能体掌握全局结构,无需加载全量文档内容,平衡上下文开销与结构感知能力。

两大核心工具:Retrieve与ReadSection的协同

DeepRead为智能体配备两个互补工具,模拟人类「快速定位+深度阅读」的行为:

  • Retrieve(扫描式定位):接收语义查询,返回Top-K相关段落及其坐标,同时支持「扫描窗口」(在召回的段落加上前后各1段),模拟人类快速浏览上下文的行为;

  • ReadSection(聚焦式阅读):接收坐标范围(如doc_id=1, sec_id=3, start_para=0, end_para=5),返回该范围内的连续、保序段落,重构完整语义上下文,彻底解决碎片化问题。

两者形成闭环:Retrieve负责「找方向」,快速锁定相关章节;ReadSection负责「深挖掘」,获取完整证据,避免关键词检索的局限性。

涌现行为:自主学会「定位再阅读」

无需手动编码规则或是特定指令,DeepRead可自主进化出类人推理策略:先通过Retrieve获取结构锚点,再调用ReadSection精读相关章节。实验显示,90%以上的查询会遵循这一范式,且工具调用比例会自适应任务特性——ContextBench(长文档推理)更依赖ReadSection,FinanceBench(金融数据提取)更依赖Retrieve。


实验结果

跨场景的显著提升

研究人员在四大基准数据集(涵盖单文档/合成多文档数据集)上验证了DeepRead的效果,核心结果参考下表


关键亮点包括:

  1. 长文档推理突破:在需长距离依赖的ContextBench上,DeepRead准确率从74.5%提升至91.5%,提升幅度达17.0%,验证了结构感知对长文档的价值;

  2. 多文档融合优势:在基于QASPER(学术论文问答)和SyllabusQA(课程大纲对比)合成的多文档数据集上表现优越,分别提升7.7%和13.8%,证明结构感知能有效跨文档整合证据;

  3. 鲁棒性验证:通过DeepSeek-V3.2、GLM-4.7、Qwen3-235B三大独立法官评估,结果一致率达88.58%,确保提升并非偶然。


值得注意的是,DeepRead的优势并非来自「更多的检索片段」——即使Search-o1允许检索更多文本块,仍无法弥补结构缺失的差距;而盲目扩展上下文(expand)可能会降低DeepRead在部分任务上的性能,因为结构化阅读已能提供足够连贯的证据,冗余文本只会引入噪声。

案例直观感受:从「关键词拼凑」到「章节精读」

以FinanceBench中的亚马逊营收计算任务为例:

  • 传统Search-o1风格的Agentic Search需反复检索「2016营收」「2017净销售额」等关键词,可能混淆「预估数据」与「实际财报数据」;

  • DeepRead则先通过Retrieve定位到「合并利润表」章节,再用ReadSection读取完整表格,精准提取2016年135987百万美元、2017年177866百万美元的净销售额,计算出30.8%的同比增长率。


总结

DeepRead的核心价值在于:挖掘文档原生结构先验,用轻量坐标系统和协同工具,实现了Agentic RAG的结构感知升级。

相比构建复杂知识图谱的方案,DeepRead无需额外结构化成本,仅通过OCR解析和工具设计,就在长文档、多文档任务上实现显著提升,兼具实用性和效率。

参考资料:

https://arxiv.org/abs/2602.05014

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
张雪峰公司对联已拆!一个月前注册近40枚“姩菡”商标,捐款千万

张雪峰公司对联已拆!一个月前注册近40枚“姩菡”商标,捐款千万

离离言几许
2026-03-25 15:07:06
张雪峰现任妻子遭扒,曝其去年再婚有儿子,年轻漂亮还很清纯

张雪峰现任妻子遭扒,曝其去年再婚有儿子,年轻漂亮还很清纯

古希腊掌管松饼的神
2026-03-25 14:28:44
以色列专打伊朗“镇压机器”,为巴列维王储势力铺路

以色列专打伊朗“镇压机器”,为巴列维王储势力铺路

老马拉车莫少装
2026-03-01 21:19:35
事情闹大了,日本内阁连发公告,中国的态度,告诉了世界一个事实

事情闹大了,日本内阁连发公告,中国的态度,告诉了世界一个事实

兰妮搞笑分享
2026-03-26 13:55:33
银行人员再次提醒:存款超过20万的储户,就不要再傻傻的存定期了

银行人员再次提醒:存款超过20万的储户,就不要再傻傻的存定期了

蓝色海边
2026-03-26 13:44:58
伊朗创造历史,美国难以置信!而一位神秘老人不得不提了!

伊朗创造历史,美国难以置信!而一位神秘老人不得不提了!

华人星光
2026-03-25 11:24:58
38.6万元起拍!南京一民国老四合院上架拍卖

38.6万元起拍!南京一民国老四合院上架拍卖

现代快报
2026-03-26 14:34:07
四川多所中学发布严正声明

四川多所中学发布严正声明

四川省教育厅
2026-03-26 10:57:12
张雪峰不是留几手的爹!?

张雪峰不是留几手的爹!?

八卦疯叔
2026-03-26 11:23:27
张雪峰医疗文件疑遭泄露?苏州市卫生健康委员会:已关注到此事并在处理

张雪峰医疗文件疑遭泄露?苏州市卫生健康委员会:已关注到此事并在处理

护理传真
2026-03-25 15:46:16
张雪峰猝然离世,11岁女儿张姩菡成最大牵挂:他铺完了路,却来不及陪她走

张雪峰猝然离世,11岁女儿张姩菡成最大牵挂:他铺完了路,却来不及陪她走

阿凯销售场
2026-03-26 15:48:07
今年首次超10米!中国第一大淡水湖水位大涨:修建水利有何好处?

今年首次超10米!中国第一大淡水湖水位大涨:修建水利有何好处?

阿凫爱吐槽
2026-03-26 15:54:03
黄天鹅两份角黄素检测声明数据从“本底水平”变为“无”,与打假团队步入诉讼阶段

黄天鹅两份角黄素检测声明数据从“本底水平”变为“无”,与打假团队步入诉讼阶段

新浪财经
2026-03-26 16:24:17
悲催!辽宁一200多斤男子饮酒时突发脑出血,8个月身孕妻子崩溃了

悲催!辽宁一200多斤男子饮酒时突发脑出血,8个月身孕妻子崩溃了

火山詩话
2026-03-26 13:34:59
特朗普:伊朗在谈判但不敢明说,其领导人怕被自己人干掉!伊外长:与美“交流信息” ,没谈判!美媒:万斯将前往巴基斯坦讨论停战

特朗普:伊朗在谈判但不敢明说,其领导人怕被自己人干掉!伊外长:与美“交流信息” ,没谈判!美媒:万斯将前往巴基斯坦讨论停战

每日经济新闻
2026-03-26 09:53:08
广东91岁老人让儿子保管900多万养老钱,儿媳去世前却将300多万分给自己姐姐,老人瞬间傻眼,法院:钱是保管不是赠与,全额返还

广东91岁老人让儿子保管900多万养老钱,儿媳去世前却将300多万分给自己姐姐,老人瞬间傻眼,法院:钱是保管不是赠与,全额返还

观威海
2026-03-18 22:11:07
针对中国的谋划落空,高市被安排“鸿门宴”,并对中日关系表态

针对中国的谋划落空,高市被安排“鸿门宴”,并对中日关系表态

袁周院长
2026-03-26 16:08:54
越打越贵的账单:俄罗斯的“红线”为什么消失了

越打越贵的账单:俄罗斯的“红线”为什么消失了

民间胡扯老哥
2026-03-24 07:16:00
七旬阿婆卖房助女还贷,反而无家可归?女儿喊冤:被她严重影响了生活

七旬阿婆卖房助女还贷,反而无家可归?女儿喊冤:被她严重影响了生活

福建第一帮帮团
2026-03-25 19:38:24
随着朝鲜1-1,泰国2-2,西安邀请赛积分榜出炉:中国男足排名第一

随着朝鲜1-1,泰国2-2,西安邀请赛积分榜出炉:中国男足排名第一

侧身凌空斩
2026-03-25 21:41:35
2026-03-26 17:00:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14819文章数 66720关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

国防部:日本侵略过所有周边国家 至今都没有真正反省

头条要闻

国防部:日本侵略过所有周边国家 至今都没有真正反省

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

长护险谁能享受?享受多少?解答来了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

教育
游戏
家居
数码
公开课

教育要闻

2026湖北高职单招工作启动

商业互吹or真心话?制作人玩《红色沙漠》忘记工作

家居要闻

傍海而居 静观蝴蝶海

数码要闻

1599~2499元,英特尔酷睿Ultra 200S Plus处理器发售

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版