网易首页 > 网易号 > 正文 申请入驻

亚马逊与以色列理工学院突破:AI实现文档快速理解能力

0
分享至


这项由亚马逊网络服务公司与以色列理工学院联合开展的研究发表于2026年2月18日,论文编号为arXiv:2602.16872v1,研究团队开发出了一种名为DODO的全新文档识别技术,这项技术就像给计算机安装了一双能够快速扫视整个页面的"智慧双眼"。

在我们的数字时代,计算机需要处理大量的文档,从扫描的书籍到医疗报告,从法律文件到学术论文。传统的计算机读取文档就像一个认真但缓慢的学生,必须从左到右、从上到下一个字一个字地阅读,这个过程不仅耗时,而且在处理长篇文档时效率极低。而人类阅读时却完全不同,我们可以快速扫视整页内容,几乎同时理解多个段落的含义。

研究团队面临的核心挑战在于如何让计算机模仿人类的这种阅读方式。传统的自动回归模型就像那个一字一句阅读的学生,而扩散模型虽然理论上能够同时处理多个文字,但在实际应用中却容易出现"理解混乱"的问题。就好比一个人试图同时听多个人说话,结果反而什么都听不清楚。

DODO技术的突破在于找到了一个巧妙的平衡点。它将文档阅读比作拼图游戏,不是一次性处理整个复杂的千片拼图,而是将其分解为若干个较小的、易于管理的模块。每个模块内部可以进行并行处理,模块之间则保持有序衔接。这种方法既保留了并行处理的速度优势,又避免了全局处理可能导致的混乱。

研究团队在设计DODO时考虑了文档识别任务的特殊性。与创意写作不同,文档中的每个字符都有其确定的位置和含义,不存在多种可能的"正确答案"。这种确定性为并行处理提供了理想条件,因为不需要担心不同部分之间的语义冲突。

在具体实现上,研究团队开发了两个版本的DODO系统。标准版本追求最高的识别精度,能够完整保留文档的所有细节信息。快速版本则通过优化内存使用和计算流程,将处理速度提升至传统方法的三倍,同时仍然保持相当高的准确性。

实验结果表明,DODO在两个重要的文档识别基准测试中都表现优异。在OmniDocBench测试中,该技术处理包含复杂图表、公式和多栏布局的学术文档时,错误率仅为0.066,远低于其他扩散模型的0.5以上错误率。在Fox-Page-EN纯文本识别测试中,DODO同样展现出与专业OCR系统相媲美的性能。

更重要的是,DODO技术展现出了显著的效率优势。传统方法处理一个包含148个词汇的文档需要148个处理步骤,而DODO仅需15个步骤就能完成同样的任务,平均每步可以识别约10个词汇。这种效率提升在处理长篇文档时尤其明显,能够大幅降低处理时间和计算成本。

研究团队还深入分析了DODO成功的关键因素。他们发现,块状处理策略解决了传统扩散模型在文档识别中面临的两个主要问题:长度估计错误和位置定位偏差。通过将长文档分解为固定长度的块,系统可以更准确地预测每个部分的内容长度,避免出现截断或冗余生成的问题。

在技术实现的细节上,研究团队采用了创新的注意力机制设计。标准版本使用完全双向注意力,确保每个文字块都能充分利用上下文信息,从而获得最高的识别准确性。快速版本则采用块因果注意力,通过缓存已处理部分的信息来提升处理速度,这种设计使得系统在保持高性能的同时显著降低了计算复杂度。

对于采样策略,研究团队比较了多种不同的方法。置信度阈值法被证明是最适合文档识别任务的策略,它只在模型对某个字符有足够把握时才确定其内容,这种谨慎的策略确保了高精度的识别结果。相比之下,其他一些在数学和编程任务中表现良好的策略在文档识别中却表现不佳,这凸显了针对特定任务优化的重要性。

研究团队进行的深入对比实验揭示了DODO技术的独特优势。当他们尝试将传统的全局扩散方法应用于相同的训练数据时,发现即使提供了准确的文档长度信息,这些方法仍然无法达到DODO的性能水平。这证明了块状处理不仅仅是一个工程优化,而是解决文档识别任务本质挑战的关键创新。

在块大小的选择上,研究发现存在一个最优区间。太小的块无法充分利用并行处理的优势,太大的块则可能重新引入全局处理的问题。通过大量实验,研究团队确定256个词汇的块大小在准确性和效率之间达到了最佳平衡。这个发现为未来类似系统的设计提供了重要参考。

DODO技术的应用前景十分广阔。在学术研究领域,它可以快速处理大量的文献资料,帮助研究人员更高效地获取信息。在商业环境中,这项技术可以用于处理合同、报告和其他商务文档,显著提升工作效率。在数字化转型过程中,DODO能够帮助组织快速将纸质文档转换为可搜索的数字格式。

从技术发展的角度来看,DODO代表了人工智能在特定任务优化方面的重要进展。它证明了通过深入理解任务特性,可以设计出比通用方法更有效的专门解决方案。这种思路对其他需要高精度和高效率的AI应用具有重要启发意义。

当前DODO技术仍有改进空间。研究团队指出,快速版本虽然大幅提升了处理速度,但在精度上仍略逊于标准版本。未来的研究方向包括进一步优化注意力机制,探索更适合文档特征的扩散采样策略,以及将这种块状处理思路推广到其他视觉语言任务中。

这项研究的意义不仅在于提出了一个高效的文档识别系统,更在于为并行文本生成任务提供了新的设计思路。通过合理的任务分解和专门的架构设计,DODO证明了在特定领域中,专门优化的方法可以显著超越通用解决方案的性能。

说到底,DODO技术就像给计算机配备了一套既快速又准确的"阅读技能"。它不仅能够以接近人类的方式理解文档内容,还能在保证质量的前提下大幅提升处理效率。这种技术进步对于我们日益依赖数字文档处理的现代社会来说,无疑是一个重要的里程碑。对于那些希望深入了解技术细节的读者,可以通过arXiv:2602.16872v1查询完整的研究论文。

Q&A

Q1:DODO技术是如何实现比传统方法快3倍的处理速度的?

A:DODO采用块状并行处理策略,将长文档分解为256个词汇的小块,每个块内可以同时处理多个文字,而不是像传统方法那样一个字一个字地顺序处理。同时,快速版本还使用了缓存技术,避免重复计算已处理部分的信息,从而实现了显著的速度提升。

Q2:DODO在文档识别准确率方面表现如何?

A:DODO在专业测试中表现优异,在OmniDocBench复杂文档测试中错误率仅为0.066,在Fox-Page-EN纯文本测试中错误率为0.041,远超其他扩散模型的0.5以上错误率,达到了与专业OCR系统相媲美的精度水平。

Q3:DODO技术可以应用在哪些实际场景中?

A:DODO技术应用前景广泛,包括学术文献的快速数字化处理、商业合同和报告的自动识别、医疗和法律文档的数字化转换,以及各类纸质材料的批量处理。特别适合需要高精度和高效率同时处理大量文档的场景。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
歼-10首飞28周年,该型战机从独立作战平台转型为网络化作战节点

歼-10首飞28周年,该型战机从独立作战平台转型为网络化作战节点

止戈军是我
2026-03-26 22:45:27
正式确定!CBA名将加盟浙江广厦,重返老东家,全力卫冕总冠军

正式确定!CBA名将加盟浙江广厦,重返老东家,全力卫冕总冠军

体坛瞎白话
2026-03-25 16:52:09
黄天鹅晒出的检测报告上显示检测开始日期是2027年

黄天鹅晒出的检测报告上显示检测开始日期是2027年

映射生活的身影
2026-03-26 18:40:07
全国最大比亚迪中心落地常州,预计今年5月中旬正式运营

全国最大比亚迪中心落地常州,预计今年5月中旬正式运营

财闻
2026-03-26 12:53:13
上海交大解剖405名心梗死者,惊讶发现患心梗的人,有3个共性

上海交大解剖405名心梗死者,惊讶发现患心梗的人,有3个共性

健康之光
2026-03-26 13:55:06
蒋介石孙子召开发布会,提出“两蒋”移灵大陆,2句话让世人唏嘘

蒋介石孙子召开发布会,提出“两蒋”移灵大陆,2句话让世人唏嘘

老谢谈史
2026-03-18 18:33:35
伊朗被美以单方面轰炸23天,为何革命卫队依旧不认输?

伊朗被美以单方面轰炸23天,为何革命卫队依旧不认输?

高博新视野
2026-03-24 08:00:16
白人女性与黑人女性的体味差异,网友真实分享引发热议

白人女性与黑人女性的体味差异,网友真实分享引发热议

特约前排观众
2025-12-22 00:20:06
特朗普再次就停战谈判威胁伊朗

特朗普再次就停战谈判威胁伊朗

澎湃新闻
2026-03-26 20:24:03
临时闭园!常州一景区重要通知

临时闭园!常州一景区重要通知

常州大喇叭
2026-03-26 15:26:59
ESPN:萨拉赫是英超历史最佳,甚至可以没有之一

ESPN:萨拉赫是英超历史最佳,甚至可以没有之一

懂球帝
2026-03-25 23:20:06
伊朗拒绝美国停战方案并提出伊方5项条件

伊朗拒绝美国停战方案并提出伊方5项条件

新京报
2026-03-25 23:58:14
烧了18.6万美元让AI连轴肝了17天,它产出了166篇论文

烧了18.6万美元让AI连轴肝了17天,它产出了166篇论文

酷玩实验室
2026-03-25 18:25:49
800亿!泉州首富家族,太可怕了

800亿!泉州首富家族,太可怕了

深蓝财经
2026-03-26 18:58:45
国防部:菲方侵权挑衅只会遭到更加坚决应对

国防部:菲方侵权挑衅只会遭到更加坚决应对

界面新闻
2026-03-26 16:00:27
朝鲜战场缴获美军火箭筒,拆解惊觉技术差距改写陆军征程

朝鲜战场缴获美军火箭筒,拆解惊觉技术差距改写陆军征程

唠叨说历史
2026-03-18 13:40:57
315曝光10个最毒食黑名单!第8个你几乎天天在吃,看完脊背发凉

315曝光10个最毒食黑名单!第8个你几乎天天在吃,看完脊背发凉

现代小青青慕慕
2026-03-24 08:13:54
詹姆斯:布朗尼绝对配得上立足NBA 我们家的人做事从来不敷衍

詹姆斯:布朗尼绝对配得上立足NBA 我们家的人做事从来不敷衍

罗说NBA
2026-03-26 22:15:56
英国以国家安全为由否决了中企在苏格兰建厂计划,外交部:中英经贸绿色合作的本质是互利共赢,不应受到泛政治化、泛安全化的冲击

英国以国家安全为由否决了中企在苏格兰建厂计划,外交部:中英经贸绿色合作的本质是互利共赢,不应受到泛政治化、泛安全化的冲击

潇湘晨报
2026-03-26 16:25:20
1986年韩先楚拒绝葬在八宝山,他对陈云说:那里有我不愿见到的人

1986年韩先楚拒绝葬在八宝山,他对陈云说:那里有我不愿见到的人

百年历史老号
2026-03-25 18:27:41
2026-03-26 23:19:00
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
7765文章数 556关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

游戏
家居
房产
教育
时尚

50万销量达成!这款IGN 9分独游走红 官方发推庆贺

家居要闻

傍海而居 静观蝴蝶海

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

教育要闻

骂人没有杀伤力?那不是白忙活吗?

这些才是适合春季的穿搭!不沉闷、不单调,大方靓丽又减龄

无障碍浏览 进入关怀版