J.P. Morgan团队如何让AI成为文档信息提取专家？|显式标识

分享至

在这个信息爆炸的时代，企业每天都面临着一个令人头疼的问题：如何从堆积如山的文档中快速准确地提取所需信息？无论是财务报表、合同文件，还是各种表格和图表，人工处理这些文档不仅费时费力，还容易出错。正是为了解决这一普遍存在的痛点，来自J.P. Morgan AI Research的研究团队开发了一项创新性的解决方案。

这项研究成果被命名为EXSTRUCTINY，于2026年发表在计算机科学顶级期刊上。研究团队包括Mathieu Sibue、Andres Munoz Garza、Samuel Mensah、Pranav Shetty、Zhiqiang Ma、Xiaomo Liu和Manuela Veloso等多位专家。有兴趣深入了解的读者可以通过arXiv:2602.12203v1这个编号查询完整论文。

这项研究的意义远超学术范畴。在当今商业环境中，企业每天处理的文档数量呈指数级增长，从保险理赔单到银行贷款申请，从医疗记录到法律合同，准确提取关键信息已成为企业运营效率的重要决定因素。传统的人工处理方式不仅成本高昂，而且容易因疲劳和注意力不集中导致错误，这些错误可能带来严重的商业后果。

研究团队发现，现有的AI系统虽然在某些特定任务上表现不错，但在面对真实商业环境中复杂多变的文档时却显得力不从心。这些系统往往只能处理固定格式的文档，或者只能回答非常简单的问题，无法应对企业实际需求中那些复杂、灵活的信息提取任务。

为了彻底解决这个问题，研究团队创建了一个全新的测试基准，就像为AI系统设计了一个更贴近现实的考试。这个考试不仅考查AI能否找到信息，更重要的是考查它能否按照人类的需求，将信息整理成结构化、易于使用的格式。

一、重新定义文档信息提取的标准

想象你正在整理家庭重要文件，需要从各种单据中提取信息制作一份清单。有时候你知道具体要找什么，比如"电费单金额"；有时候你只有模糊的需求，比如"所有与保险相关的信息"。EXSTRUCTINY正是基于这样的现实需求场景设计的。

传统的AI测试系统就像只会按固定菜单点菜的服务员，只能处理标准化的请求。而EXSTRUCTINY则像一位经验丰富的助手，能够理解各种表达方式的需求，并且知道如何将找到的信息按照你的要求整理好。

这个系统最大的创新在于它能够处理三种不同类型的信息提取请求。第一种是明确指定需求的情况，就像你明确告诉助手"我需要找到所有签名人的姓名和职位"。第二种是提供结构模板的情况，相当于你给助手一张表格说"请按照这个格式填写信息"。第三种是开放式需求，比如你只说"帮我整理所有关于签名人的信息"，而具体需要什么信息由助手根据文档内容来判断。

研究团队特别注重让这个系统能够处理现实世界中的复杂情况。在实际工作中，我们经常遇到信息不完整的文档，有些表格可能有空白栏目，有些问题可能在文档中找不到答案。EXSTRUCTINY被训练来优雅地处理这些情况，就像一位细心的助手会明确告诉你"这份文档中没有提供这个信息"，而不是胡乱猜测。

为了确保测试的全面性，研究团队收集了110份多页文档，涵盖了表格、财务报告、演示文稿和网页截图等多种格式。这些文档就像一个小型的现实商业环境，包含了企业日常可能遇到的各种信息提取挑战。

二、突破传统的数据生成方法

创建这样一个综合性的测试基准面临着巨大的挑战，因为需要大量高质量、多样化的测试案例。如果完全依靠人工创建，不仅成本高昂，而且很难确保足够的多样性。研究团队采用了一个巧妙的解决方案：将人工精心制作的高质量样本与AI辅助生成的大量样本相结合。

这个过程就像培训一位新员工。首先，经验丰富的专家手工制作了一批示范性的案例，这些案例展示了各种可能的情况和正确的处理方式。然后，研究团队使用这些示范案例来训练一个AI助手（Gemini-2.5-Flash-Thinking），让它学会如何生成类似质量的新案例。

但这还不够。研究团队深知，AI生成的内容虽然数量大，但质量可能参差不齐。因此，他们建立了一个严格的质量控制流程。每一个AI生成的案例都要经过人类专家的仔细审核和修正。专家们会检查问题是否合理、答案是否准确、格式是否正确，并根据需要进行调整。

这个质量控制过程异常细致。研究团队发现，平均每个AI生成的案例需要进行25.5处修改才能达到标准。这些修改包括澄清问题表述、确保提取的文本与原文档完全一致、修正页面引用、调整边界框坐标，以及确保输出格式的一致性。

为了增加测试的现实性和挑战性，研究团队还特意设计了几种特殊情况。他们让AI重新表述实体名称，减少与文档原文的词汇重叠，这样可以测试系统是否真正理解语义，而不是简单地进行文本匹配。他们还加入了一些文档中不存在信息的问题，模拟现实中信息不完整的情况。

最终，这个数据生成和验证过程产生了304个高质量的问答对，覆盖了110份文档。这些案例在保证质量的同时，也确保了足够的多样性和挑战性，为AI系统提供了一个真正全面的测试环境。

三、建立全新的评估标准

评估AI系统在文档信息提取方面的表现，远比评估其他AI任务要复杂得多。传统的评估方法往往过于简单，只关注答案是否正确，而忽视了结构化输出的质量和实用性。研究团队意识到，需要建立一套全新的评估标准，才能真正衡量AI系统在实际应用中的表现。

这个挑战可以用餐厅服务来类比。传统评估就像只检查服务员是否端对了菜品，而忽视了摆盘、温度、上菜顺序等影响用餐体验的重要因素。EXSTRUCTINY的评估系统则像一位专业的餐厅评估师，会从多个维度综合考量服务质量。

评估系统关注四个关键维度。首先是文本提取的准确性，这相当于检查信息是否找对了。其次是页面定位的准确性，即检查AI是否知道信息来源于文档的哪一页。第三是边界框预测，这涉及AI能否准确标出信息在页面上的具体位置。最后是结构预测，即检查AI生成的输出格式是否符合要求。

最具挑战性的问题在于，不同的AI系统可能用完全不同的方式组织相同的信息。就像两个人可能用不同的方式整理同一堆文件，但只要信息完整准确，两种整理方式都应该被认为是正确的。为了解决这个问题，研究团队开发了一套智能的语义映射系统。

这套映射系统使用另一个AI模型作为"翻译官"，负责理解不同AI系统输出格式之间的对应关系。它能够识别出"客户姓名"和"顾客名字"实际上指的是同一个概念，能够处理信息粒度的差异，比如一个系统输出"John Doe"而另一个系统分别输出"John"和"Doe"的情况。

为了确保这套评估标准的可靠性，研究团队进行了大量的测试和验证工作。他们比较了不同文本模型在映射任务上的表现，最终选择了表现最佳的gpt-oss-20b模型作为标准映射器。测试结果显示，这个映射器在处理各种复杂情况时都能达到96%以上的准确率，为可靠的评估提供了基础。

这套综合性的评估标准不仅能够客观地衡量AI系统的表现，更重要的是，它反映了实际应用场景中的真实需求。企业在使用这些AI系统时，关心的不仅仅是信息是否正确，更关心信息是否以有用的格式提供，是否能够支持后续的业务流程。

四、全面测试当前最先进的AI系统

为了验证EXSTRUCTINY测试基准的有效性，研究团队对市场上最先进的视觉语言模型进行了全面测试。这些模型既包括公开可用的开源模型，也包括来自大型科技公司的闭源商业模型。测试结果揭示了当前AI技术在文档信息提取方面的真实水平和主要挑战。

测试就像一次大型的能力验证考试，参与者包括了AI界的"明星学生"。开源模型阵营包括了不同规模的Qwen2.5-VL系列（从3B到72B参数）、Gemma-3系列、Pixtral-12B、Kimi-VL-A3B-16B等。商业模型则包括了Google的Gemini-2.5-Flash和Gemini-2.5-Pro等顶级产品。

测试结果显示了一个清晰的性能梯度。商业闭源模型在整体表现上明显优于开源模型，最好的商业模型（Gemini-2.5-Pro）达到了79.5%的综合得分，而表现最佳的开源模型（Qwen2.5-VL-72B-FP8）为61.4%，两者之间存在明显的性能差距。

模型规模对性能的影响非常显著。在同一模型系列中，参数量更大的版本几乎总是表现更好。以Qwen2.5-VL系列为例，从3B参数版本的38.5%得分提升到72B参数版本的61.4%得分，性能提升幅度达到了60%。这种趋势在所有测试的模型系列中都得到了验证，表明在文档信息提取这类复杂任务中，模型规模仍然是性能的重要决定因素。

不同类型的查询表现出了不同的难度特征。简单的文本查询（直接询问特定信息）通常表现最好，因为这类查询明确指定了需要查找的内容。而基于模式的查询（提供结构化模板让AI填充）表现稍差，主要是因为这类查询通常要求提取更多的信息实体。最具挑战性的是开放式查询，这类查询只提供模糊的指导，需要AI自主决定提取哪些信息以及如何组织这些信息。

一个特别有趣的发现是，当需要提取的信息数量增加时，开源模型的性能下降更为明显。当查询要求提取50个以上的信息项时，开源模型的表现急剧下降，而商业模型能够保持相对稳定的性能。这表明商业模型在处理复杂、大规模信息提取任务时具有更强的鲁棒性。

手工标注数据与AI生成数据的测试结果也展现了有趣的对比。所有模型在手工标注的测试案例上表现都比在AI生成案例上稍差，平均差距约为13.6%。这个结果验证了手工标注案例的高质量和挑战性，同时也表明AI生成的测试案例经过人工验证后能够很好地模拟真实场景。

五、揭示AI系统的关键弱点

通过深入分析测试结果，研究团队发现了当前AI系统在文档信息提取方面存在的几个关键弱点。这些发现不仅揭示了技术发展的瓶颈，也为未来的改进方向提供了重要指导。

位置定位能力是所有测试模型的一个显著弱点。即使是表现最好的商业模型，在准确标出信息在文档中的具体位置方面也只能达到84.3%的准确率，而在预测信息所在页面方面的表现更是差强人意。更令人担忧的是，即使AI系统正确提取了文本信息，也不能保证它能准确指出信息的来源位置。这个问题在实际应用中可能带来严重后果，因为用户往往需要验证AI提取的信息，而无法准确定位信息来源会大大降低系统的可信度。

模型在不同文档内容类型上的表现差异也很明显。几乎所有模型在处理图表和自由文本时表现最差。图表处理的困难是可以理解的，因为图表包含大量视觉元素，如颜色、形状、位置关系等，这些元素对信息理解至关重要，但对当前的AI系统来说仍然是挑战。自由文本的处理困难则可能源于信息密度较低，在大量无关文本中找到相关信息需要更强的语义理解能力。

词汇重叠问题反映了AI系统对语义理解的局限性。当查询中使用的词汇与文档中的原始文本高度重叠时，AI系统表现较好；但当研究团队故意减少词汇重叠，使用同义词或不同表达方式时，系统性能显著下降。这表明许多AI系统仍然在很大程度上依赖表面的文本匹配，而不是真正的语义理解。

处理不完整信息的能力是另一个重要弱点。在现实应用中，文档经常包含空白字段或缺失信息，AI系统需要能够正确识别并报告这些情况。然而，测试结果显示，大多数系统在处理部分无法回答的查询时表现不佳，往往倾向于强行提供答案而不是承认信息缺失。

结构化输出的质量也存在明显的模型间差异。较小的模型经常产生格式错误的输出，甚至无法生成有效的结构化数据。只有参数量超过12B的模型才能稳定地产生符合格式要求的输出。即使是大型模型，在保持输出结构与查询要求一致方面也存在挑战，特别是在处理复杂的嵌套结构时。

这些发现共同指向了一个重要结论：虽然当前的AI系统在文档信息提取方面已经取得了可观的进展，但距离真正可靠的商业应用仍有相当距离。特别是在需要高度准确性和可追溯性的应用场景中，这些局限性可能成为采用AI技术的主要障碍。

六、为未来AI发展指明方向

EXSTRUCTINY不仅是一个测试基准，更是推动整个领域向前发展的催化剂。通过全面揭示当前AI系统的能力边界和关键弱点，这项研究为未来的技术发展指明了具体的改进方向。

首先，提升语义理解能力应当成为优先发展方向。当前AI系统过度依赖词汇匹配的问题表明，我们需要开发能够真正理解概念和关系的模型，而不是仅仅进行文本模式识别。这要求在模型训练中加入更多的语义理解任务，并可能需要结合知识图谱等外部知识源来增强模型的概念理解能力。

位置定位技术的改进也至关重要。研究结果显示，即使是最先进的商业模型在准确定位信息来源方面也存在明显不足。未来的系统需要更好地整合视觉理解和文本理解，开发专门的空间推理能力，能够精确地将提取的信息与其在文档中的具体位置关联起来。

处理复杂查询和大规模信息提取的能力需要得到显著提升。当前开源模型在面对需要提取大量信息的查询时性能急剧下降，这表明需要开发更有效的注意力机制和信息整合策略。可能的解决方案包括分层处理架构，首先识别相关区域，然后在这些区域内进行精细提取。

鲁棒性和一致性也是未来发展的重要方向。理想的商业AI系统应该能够在各种文档类型、查询风格和信息复杂度下保持稳定的性能。这要求在训练数据的多样性、模型架构的适应性，以及推理过程的稳定性等多个方面进行改进。

交互式信息提取可能代表了未来发展的一个重要趋势。与其要求AI系统一次性完美地处理复杂查询，不如开发能够与用户进行多轮交互的系统，通过对话来澄清需求、确认结果、处理边界情况。这种方式可能更符合实际工作流程的需要。

领域适应性的改进也不可忽视。不同行业的文档具有独特的格式、术语和信息组织方式，通用模型可能难以处理这些特殊性。未来需要开发更好的领域适应技术，能够快速调整模型以适应特定行业或组织的需求。

数据质量和标注方法的改进同样重要。EXSTRUCTINY的创建过程表明，高质量的训练和测试数据对模型性能至关重要。未来需要开发更高效的数据生成和质量控制方法，可能包括更智能的AI辅助标注工具和更完善的质量评估体系。

这项研究还暗示了评估方法本身需要不断演进。随着AI系统能力的提升，我们需要更细致、更全面的评估标准来准确衡量系统性能。未来的评估可能需要考虑更多维度，如处理时间、计算资源消耗、可解释性等实际应用中关心的因素。

说到底，EXSTRUCTINY代表的不仅仅是技术进步的一个里程碑，更是整个人工智能应用从实验室走向实际商业环境过程中必经的重要一步。它告诉我们，真正有用的AI系统不仅需要在标准测试中表现出色，更需要在复杂、多变的现实环境中保持可靠和实用。

这项研究的影响将远远超越学术界。对于企业决策者来说，它提供了评估AI解决方案的科学标准；对于技术开发者来说，它明确了改进的方向和优先级；对于普通用户来说，它预示着更智能、更可靠的文档处理工具即将到来。随着这些技术的不断改进，我们可以期待一个文档处理更加自动化、智能化的未来，在这个未来里，人们将能够将更多时间和精力投入到创造性工作中，而不是重复性的信息提取任务。

Q&A

Q1：EXSTRUCTINY是什么？

A：EXSTRUCTINY是由J.P. Morgan AI Research团队开发的文档信息提取测试基准，专门用于评估AI系统从各种文档图像中提取和组织信息的能力。它包含304个查询-答案对，覆盖110份多页文档，支持三种不同类型的信息提取查询。

Q2：EXSTRUCTINY与传统的AI测试有什么不同？

A：传统测试通常只处理固定格式文档或简单问题，而EXSTRUCTINY能处理复杂的结构化提取任务，包括多实体查询、跨页面信息和无法回答的情况。它更贴近现实商业环境的需求，要求AI不仅要找到信息，还要按照用户要求的格式进行整理。

Q3：目前AI系统在文档信息提取方面表现如何？

A：测试结果显示商业闭源模型表现最好，最高达到79.5%的得分，而开源模型最好为61.4%。所有系统都在位置定位、处理图表内容和大规模信息提取方面存在明显弱点，特别是当需要提取50个以上信息项时，开源模型性能会急剧下降。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.