网易首页 > 网易号 > 正文 申请入驻

olmOCR:比传统OCR精度更高、比GPT-4o省钱30倍

0
分享至

在数字时代,高质量文本数据的获取对于推动语言模型的发展至关重要。

现代人工智能系统依赖于万亿级别的标记数据集来提高其准确性和效率。尽管大量数据来源于互联网,但其中相当一部分以PDF等格式存在,给内容提取带来了独特的挑战。

与易于解析的网页不同,PDF更注重视觉布局而非逻辑文本流程,这使得提取连贯的文本表示变得复杂。传统的光学字符识别(OCR)工具虽尝试解决这些问题,但其局限性阻碍了其在语言模型训练中的大规模应用。

PDF处理的主要问题在于,这些文档存储信息是为了视觉呈现而非逻辑阅读顺序。许多PDF在字符级别编码文本,记录每个字母的位置和字体属性,而没有保留句子结构。

这使得在多栏布局或包含嵌入式表格、图像和公式的文档中重建连贯的叙事变得困难。

此外,扫描的PDF引入了额外的挑战,因为它们包含的是图像格式的文本而非机器可读字符。从这类文档中提取结构化和有意义的内容需要专门的工具来理解文本和视觉元素。

为了解决从PDF中提取文本的问题,研究人员已经开发出多种方法。

早期的OCR技术如Tesseract提供了基本的字符识别,但在处理复杂布局方面存在困难。更近的方法包括基于管道的系统,这些系统将提取分为多个机器学习任务,如段落分割和表格识别。其中包括Grobid和VILA等工具,它们专为科学论文设计。

另一方面,端到端模型如Nougat和GOT Theory 2.0试图使用深度学习将整个PDF页面转换为可读文本。然而,许多系统成本高昂、不可靠或效率低下,不适合大规模应用。

艾伦人工智能研究所的研究人员推出了olmOCR,这是一个开源的Python工具包,旨在高效地将PDF文件转换为结构化纯文本,同时保留逻辑阅读顺序。

此工具包整合了文本信息和视觉信息,与传统的OCR方法相比,能够实现更高的提取精度。该系统基于一个70亿参数的视觉语言模型(VLM),该模型在从超过10万份独特文档中收集的260,000页PDF数据集上进行了微调。

与将PDF视为普通图像的传统OCR方法不同,olmOCR利用嵌入的文本及其空间位置来生成高保真的结构化内容。该系统针对大规模批量处理进行了优化,能够以成本效益的方式转换大量的文档库。其最显著的优势之一是,它只需190美元就能处理一百万页PDF,而同样的任务在GPT-4o上需要6,200美元,便宜了32倍。

olmOCR背后的核心创新是文档锚定技术,这是一种将文本元数据与基于图像的分析相结合的技术。与仅依赖于光栅化图像的端到端OCR模型不同,这种方法直接从PDF嵌入的数据中提取文本元素,并将它们与相应的视觉表示对齐。

这增强了模型识别复杂文档结构的能力,减少了错误并提高了整体的可读性。提取的内容使用Markdown格式化,保留了结构化元素,如标题、列表、表格和方程式。

此外,该系统采用微调技术来提高提取精度,利用专门为各种文档布局定制的数据集。模型训练过程涉及10,000次优化步骤,使用4个批次大小和1e-6的自适应学习率。olmOCR已被设计为可以无缝与推理框架如vLLM和SGLang一起运行。

该系统与其教师模型实现了0.875的对齐得分,超过了GPT-4o Mini等小型模型。在与其他OCR工具的直接比较中,olmOCR在准确性和效率上始终优于竞争对手。在人工评估中,该系统在领先的PDF提取方法中获得了最高的ELO评分。

此外,当使用olmOCR提取的文本对OLMo-2-1124-7B语言模型进行中期训练时,它在多个AI基准任务中平均提高了1.3个百分点的准确率。在ARC Challenge和DROP等数据集中观察到具体的性能提升,其中基于olmOCR的训练数据对语言模型理解能力的提升贡献显著。

olmOCR研究的主要收获包括:

  1. olmOCR基于一个70亿参数的视觉语言模型构建,并在10万个PDF文档的260,000页上进行微调,确保了跨不同文档类型的强大提取能力。

  2. 利用文档锚定技术将文本元数据与基于图像的信息相结合,显著提高了结构化内容的提取精度。

  3. 处理一百万页PDF仅需190美元,而使用GPT-4o则需要6,200美元,这使得它在大规模应用中成本效率提高了32倍。

  4. 实现了对齐分数0.875,超过了小型模型,并在重建逻辑阅读顺序方面展现了更高的准确性。

  5. 在结构化数据识别和大规模处理方面优于传统OCR工具,并在人工评估中获得了最高的ELO分数。

  6. 通过在AI基准数据集如ARC Challenge和DROP上提高1.3个百分点的准确性,改进语言模型训练。

  7. 与vLLM和SGLang等推理引擎兼容,允许在各种硬件配置上灵活部署。

仓库地址 https://github.com/allenai/olmocr

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
进球变丢球,国安进球因禁区内犯规被判无效,海港获点并罚进

进球变丢球,国安进球因禁区内犯规被判无效,海港获点并罚进

懂球帝
2026-05-10 20:37:15
大S女儿玥儿开通账号,用烟花缅怀母亲,小S和徐妈同时关注

大S女儿玥儿开通账号,用烟花缅怀母亲,小S和徐妈同时关注

素素娱乐
2026-05-10 10:09:42
远超预期!刚刚过去的财报季,美股“强的惊人”

远超预期!刚刚过去的财报季,美股“强的惊人”

华尔街见闻官方
2026-05-10 11:24:26
阿森纳下赛季球衣将迎来重大变化,因为他们与卢旺达...

阿森纳下赛季球衣将迎来重大变化,因为他们与卢旺达...

绿茵情报局
2026-05-10 10:18:03
套路一模一样!汉坦病毒又想栽赃中国,没想到被旅游博主记录下来

套路一模一样!汉坦病毒又想栽赃中国,没想到被旅游博主记录下来

魔都姐姐杂谈
2026-05-10 07:41:47
鲁比奥大概率永远来不了北京!

鲁比奥大概率永远来不了北京!

安安说
2026-05-09 10:56:46
赖着不走、不达目的绝不返程!美国国会代表团在华超长滞留

赖着不走、不达目的绝不返程!美国国会代表团在华超长滞留

健身狂人
2026-05-10 19:30:43
逆转+绝杀!提前夺冠!欧冠球队实现四连冠,称霸联赛

逆转+绝杀!提前夺冠!欧冠球队实现四连冠,称霸联赛

乌龙球OwnGoal
2026-05-10 11:15:29
U17国足1-2日本 亚洲杯2连败濒临出局 万项助攻 赵松源破门难救主

U17国足1-2日本 亚洲杯2连败濒临出局 万项助攻 赵松源破门难救主

我爱英超
2026-05-10 01:59:23
光纤行业迎重大利好,外资悄然布局3家低价标的

光纤行业迎重大利好,外资悄然布局3家低价标的

王二哥老搞笑
2026-05-10 13:08:16
当年23个70后一把手,团干14人,费高云是机关内逐级晋升者

当年23个70后一把手,团干14人,费高云是机关内逐级晋升者

江南江南
2026-05-10 11:02:41
张本美和3比2击败王曼昱,首次大赛取胜,第四盘对战孙颖莎

张本美和3比2击败王曼昱,首次大赛取胜,第四盘对战孙颖莎

子水体娱
2026-05-10 19:03:32
特朗普不宣而战,美军发起斩首行动,伊朗或再次上当

特朗普不宣而战,美军发起斩首行动,伊朗或再次上当

国际阿尝
2026-05-10 17:07:44
国务卿鲁比奥被中国拒之门外,北京宁绕弯传话也不给他开门!

国务卿鲁比奥被中国拒之门外,北京宁绕弯传话也不给他开门!

故事终将光明磊落
2026-05-10 15:02:43
陪玩陪睡根本不够!认干爹、舔手指,背地里的阴暗面完全藏不住了

陪玩陪睡根本不够!认干爹、舔手指,背地里的阴暗面完全藏不住了

杰丝聊古今
2026-05-03 13:35:27
缺钾比缺钙危险?5个信号证明你缺钾了,建议吃这5种食物缓解

缺钾比缺钙危险?5个信号证明你缺钾了,建议吃这5种食物缓解

健康之光
2026-05-07 20:50:03
风暴来袭!全国医院严查12大科室,5月飞检上门,原因让人心酸

风暴来袭!全国医院严查12大科室,5月飞检上门,原因让人心酸

白宸侃片
2026-05-10 14:38:57
山东将出现一次强对流天气过程

山东将出现一次强对流天气过程

北青网-北京青年报
2026-05-10 16:34:03
美国外交彻底翻车!鲁比奥被中国拒之门外,绕路传话都不给面子!

美国外交彻底翻车!鲁比奥被中国拒之门外,绕路传话都不给面子!

谭麤爱搞笑
2026-05-10 11:38:49
科尔2年超3500万回归!勇士补强计划出炉:续约库里+乐透追字母哥

科尔2年超3500万回归!勇士补强计划出炉:续约库里+乐透追字母哥

锅子篮球
2026-05-10 14:51:47
2026-05-10 21:16:49
开源中国 incentive-icons
开源中国
每天为开发者推送最新技术资讯
7727文章数 34540关注度
往期回顾 全部

科技要闻

DeepSeek融资,改写所有人的估值

头条要闻

罕见一幕 韩国总统、国会议长、执政党党首同日飙泪

头条要闻

罕见一幕 韩国总统、国会议长、执政党党首同日飙泪

体育要闻

那个曾让詹姆斯抱头的兄弟,40岁从大学毕业了

娱乐要闻

大S女儿玥儿开通账号,用烟花缅怀母亲

财经要闻

白酒大逃杀

汽车要闻

轴距加长/智驾拉满 阿维塔07L定位大五座SUV

态度原创

本地
游戏
家居
数码
公开课

本地新闻

用苏绣的方式,打开江西婺源

《GTA6》成本居高不下 Take-Two高管表示毫无压力

家居要闻

菁英人居 全能豪宅

数码要闻

微软Win11 Xbox模式实测:英伟达、AMD显卡游戏性能均获提升

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版