网易首页 > 网易号 > 正文 申请入驻

全球OCR最强模型仅0.9B!百度文心衍生模型刚刚横扫4项SOTA

0
分享至

衡宇 发自 凹非寺
量子位 | 公众号 QbitAI

全球AI多模态竞速激战正酣,百度又放了个大招!

旗下新模型凭借0.9B参数量,在最新OmniDocBench V1.5榜单上拿下92.6分的成绩,获得综合性能全球第一。

它就是百度刚刚发布并在Day 1就开源的自研多模态文档解析模型PaddleOCR-VL

(ps:0.9B参数量,对开发者的个人电脑真的炒鸡友好!)

发布16小时内,该模型就登顶了抱抱脸Trending全球第一。



非常抢眼的是,这款模型不仅得分高,它还在文本识别、公式识别、表格理解、阅读顺序四大核心能力上全面拿下SOTA,成为当前唯一在这四个维度全部排名第一的模型,刷新了全球OCR VL模型性能的新高线。



PaddleOCR-VL是一款面向复杂文档结构解析而设计的模型,是百度文心大模型体系下专注文档解析任务的轻量化衍生产品,具备极强的行业落地导向和平台集成能力,能轻松看懂令人头秃的PDF和图片。

敲黑板划重点:它真的能理解格式杂、长度长的文档中的逻辑结构、表格关系、数学表达等等

和小红书等平台上,这个模型已经被大家先用起来并分享使用体验。



实用又好用,已经收获“哇”声一片。



在AI从感知到认知不断跃迁的当下,当模型不再只是识字工具,变成了具备结构感知与语义还原能力的利器,OCR在AI时代的意义也被彻底改写。

登顶OmniDocBench,四大核心能力全线SOTA

PaddleOCR-VL登顶的OmniDocBench V1.5是目前全球衡量文档解析能力最具权威性,也最具挑战性的评测体系之一。

它经清华大学、阿里达摩院、上海人工智能实验室等联合发布,由开源社区推动发展,主要面向真实场景中的PDF文档解析任务,包含1355页PDF,涵盖9种文档类型、4种布局类型和3种语言类型,以及文本、表格、公式、阅读顺序等多维任务。

在最新一期OmniDocBench V1.5榜单中,PaddleOCR-VL以92.6的综合得分问鼎榜首

这顶全球桂冠背后,其实标志着该模型在模型结构设计、能力理解广度和任务适配性上的整体优势。

尤其值得注意的是,PaddleOCR-VL核心模型参数仅0.9B——以轻量之身越级打怪,正面超越了Gemini-2.5 Pro、GPT-4o等与其体量悬殊的巨型多模态大模型,同时击败了OCR领域的垂直模型dots.ocr、MinerU等等。



更重要的是,PaddleOCR-VL以一己之身刷新了四项核心能力的SOTA

第一项,文本识别

PaddleOCR-VL以96.5的成绩拿下全场最高分。

技术报告显示,PaddleOCR-VL模型支持109种语言,覆盖中文、英文、法文、阿拉伯文等主流语种,并在手写、竖排、艺术字体等复杂形态下也保持极高识别精度,打破了传统OCR“只识打印体”的能力瓶颈。



需要注意的是,OmniDocBench主要评测还局限在中英文印刷体上。

如果拉齐到手写、古籍、多语种这些更复杂的场景,PaddleOCR-VL能以更惊人的优势甩开现有多模态和OCR模型。

再来看这张被骑手加点餐人“折磨”到皱皱巴巴的外卖单,部分文字因折角、单据变形而被遮挡;因为拍摄光线不好,单据上产生了明暗阴影……

就算是面对外卖单的变形和拍摄环境光照不均,PaddleOCR-VL也没在怕的:



第二项,公式识别

它CDM得分高达0.9453,远超其他对标模型,能精准还原论文、教材、试卷中复杂的数学公式,支持Latex格式生成——终于不用再手敲Latex了,抹泪。

在公式识别单项测评集上,PaddleOCR-VL的成绩为91.4,超过MinerU、MonkeyOCR-pro-3B等OCR界网红模型,也是能力测试中唯一得分超过90的模型。



第三项,表格理解

PaddleOCR-VL能够精准解析财报、统计报表中的嵌套表格与合并单元格,将非结构化图像信息快速转换为结构化数据。



单项评测中,该模型得分达到89.8,在真实场景适配性上表现优异。

第四项,阅读顺序

这项能力让它能够像人一样读文档,具体来说,PaddleOCR-VL可以自动判断页面中标题、正文、图片、图注的阅读逻辑,实现智能还原人类阅读习惯。

技术报告显示,PaddleOCR-VL的阅读顺序预测误差(Reading Order Edit Distance)仅有0.043,是该榜单所有模型中最优的表现。



BTW,四项核心能力外的一些能力,PaddleOCR-VL也稳稳没在怕的。

比如现在新闻、报表中经常会碰到的图表,处理起来同样是小菜一碟:



从语言到公式,从表格到阅读逻辑,多项评测中,PaddleOCR-VL几乎在所有维度上实现了人类级理解——

不仅能够还原多栏报纸的复杂排版,还能智能重建教材中的多页笔记结构,准确分辨内容逻辑与版式结构。

回到这个成绩背后,我们看到的不止是模型能力的突破,更是AI逐步逼近人类文档理解方式的一次真实跃迁。

小体量,大能量,创新设计突破逐行识别

传统OCR系统大多采用逐行识别策略,面对多栏、嵌套、错行、图文混排等复杂版面时往往力不从心,容易出现错位、信息遗漏等问题。

PaddleOCR-VL之所以拥有“像人一样理解结构”的能力,一方面是其在数据构建与训练策略上完成了优秀的系统工程——

整个模型虽然只有0.9B参数量,但在训练过程中,共使用超3000万样本

这些训练数据涵盖文本、表格、公式、图表等多模态信息,数据来源包括公开数据、自动合成数据、互联网采样数据和百度自研数据,辅以难例挖掘机制,保证训练集的多样性和挑战性。



另一方面,也是最重要的一方面,PaddleOCR-VL研发团队从底层架构上进行了革新

从架构层面来看,PaddleOCR-VL采用了创新性的两阶段架构:

第一阶段由PP-DocLayoutV2模型负责对文档版面进行分析,定位语义区域,并预测阅读顺序。

第二阶段则由PaddleOCR-VL-0.9B进行细粒度识别,完成文本、表格、公式、图表等多类内容的结构化输出。

相较端到端黑盒式方案,这种模块解耦、任务细化的设计让模型在面对复杂版面任务时,表现得更稳定、更高效,有效避免了多模态模型常见的幻觉与错位问题。

作为文心4.5衍生模型,PaddleOCR-VL-0.9B通过融合NaViT动态分辨率视觉编码器与ERNIE-4.5-0.3B语言模型,在效率与精度上取得了双重突破。

推理方面,PaddleOCR-VL在单张A100上推理速度达1881token/s。

精度方面,PaddleOCR-VL实现了文本编辑距离仅0.035、公式识别CDM 91.43、表格 TEDS 89.76、阅读顺序预测误差值0.043的纪录级表现。

除上之外,PaddleOCR-VL还集成了四大技术突破。

  • 高性能、资源高效的文档解析能力:采用轻量化设计与异步推理机制,显著领先同类模型。
  • 复杂文档内容的高级解析能力:支持复杂公式、嵌套表格、手写图表等难度场景,适配真实业务流程。
  • 图表结构化转换能力:能将柱状图、饼图等图像信息结构化为表格格式,支撑自动化分析。
  • 全面的多语种文本识别:涵盖109种语言,特别强化对竖排、艺术字体、手写字符等的识别能力。

看到这里,我们拿出了最近被网友在GitHub上扒出的宇树科技创始人王兴兴的硕士毕业论文《新型电驱式四足机器人研制与测试》

这篇近10年前的论文,里面含大量行内或独立的Latex公式,图表交错,插图与文字混排,引用繁多,是一份非常合格的用来测试PaddleOCR-VL真实能力的超绝必胜技(doge)。

在Document Parsing模式(这个模式可识别具有结构化布局的整页文档,例如报告、论文或杂志)下,无论是像人一样自动判断页面逻辑,并识别和分析原论文中的各项内容——



还是传统OCR模型难以正确提取的复杂流程图——



亦或者集公式和图像于一页的case——



PaddleOCR-VL真的全部都完美处理了……

难怪PaddleOCR-VL在全球大模型混战中,在OCR这条赛道上实现精度、速度、功耗的三赢。

它打破了“大模型才有好效果”的行业迷思,证明了架构合理、任务聚焦的“小”模型同样可以在实际应用中跑赢大模型,具备更强的落地能力与部署价值。

这也使其成为文心4.5大模型家族中最具工程价值与产业可行性的代表之一,补足文心在复杂文档解析任务上的关键拼图。

全球大模型都在卷,百度派出文心最强衍生模型先跑一步

在产业智能化浪潮中,OCR早已成为各行业不可或缺的数字化基础设施,是推动万物智能化、流程自动化、信息结构化的关键底层能力。

生活中诸多现实场景,如金融商业、教育与科研、政务与公共服务、文化与历史保护等,OCR都在起到降本增效的不可替代作用。

尤其在文档密集型行业,PaddleOCR-VL能看、能读、能理解,可以作为“文档工作助手”接入各种流程即刻上岗,真正帮企业提效、帮用户省心。

大模型浪潮汹涌而来的当下,PaddleOCR-VL的结构化输出能力还能与RAG系统深度融合,为大模型提供更高质量、更可控的知识输入,构建起从“非结构化文档”到“可用知识”的闭环。这也意味着,它不仅是一款文档解析工具,更是AI时代企业知识中台建设中的关键基础设施。

没错,进入大模型技术汹涌澎湃的时代,OCR已经被赋予了前所未有的战略价值——它不再只是帮助或代替人识字的工具,而是进阶成为AI理解世界的入口

首先可以看到,如今的现实世界,信息大多以非结构化文档、图片、扫描件的形式存在,OCR承担了“从真实世界到数字世界”的转换职责。

与此同时,在RAG、智能搜索、知识问答等系统中,OCR识别质量决定了输入信息的保真度。输入有多准,最终输出才有多可靠。

不知不觉间,OCR其实已经被时代技术浪潮推上了“AI新应用链条的守门人”之位。

于是也就不难理解,成为底层语义理解的试金石的OCR,已成为全球科技巨头大模型布局中不可或缺的一环。Mistral AI、Google、OpenAI、阿里、腾讯等均在此方向加大投入,试图将视觉-语言模型延伸至文档语义深层解析。

PaddleOCR-VL正是百度瞄准这一趋势对OCR能力进行的革新性升级。

作为文心4.5体系中唯一以OCR为核心任务深度优化的产品,它将文心的理解能力延展至最复杂、最具结构挑战的文档领域,将文心的理解能力进一步拓展到复杂文档结构解析任务,在语义理解的精度与广度上打开了新边界



更重要的是,PaddleOCR-VL的领先并非大力出奇迹的参数优势或偶然的工程叠加。

PaddleOCR-VL综合性能全球第一、四项核心能力拿下新SOTA的力量,源自百度在多模态智能方向上多年持续布局的系统性成果。通过融合NaViT动态分辨率视觉编码器与ERNIE-4.5-0.3B语言模型,从文心主干模型到衍生垂类模型,这一体系化建设终于在OCR领域结出硕果。

AI正在重构信息的入口,而格式繁复内容丰富的文档,是世界最难被理解的一种语言。谁能读懂现实世界的文档,谁就掌握了理解现实的钥匙。

PaddleOCR-VL的出现,把这把钥匙从参数堆砌的巨兽手中,交还给真正理解场景的设计者。

它的诞生还标志着中国模型第一次以“划线者”的姿态,在全球多模态文档解析赛道上写下自己的标准答案。

GitHub:
https://github.com/PaddlePaddle/PaddleOCR
技术报告:
https://arxiv.org/pdf/2510.14528
体验Demo地址:
https://aistudio.baidu.com/application/detail/98365

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
迪丽热巴梁朝伟代言幸运咖,扑克牌梗逆袭全网刷屏

迪丽热巴梁朝伟代言幸运咖,扑克牌梗逆袭全网刷屏

书慧我心
2026-04-14 19:15:22
5月1日跳水世界杯总决赛全红婵缺席!“282群”背后的资助方是谁

5月1日跳水世界杯总决赛全红婵缺席!“282群”背后的资助方是谁

开成运动会
2026-04-14 23:25:10
金融圈突发!涉嫌严重违纪违法,姚玉平被查

金融圈突发!涉嫌严重违纪违法,姚玉平被查

中国基金报
2026-04-14 19:05:24
深圳比亚迪火灾后续:官方通报定调,知情人透露起火现场更多细节

深圳比亚迪火灾后续:官方通报定调,知情人透露起火现场更多细节

奇思妙想草叶君
2026-04-14 19:30:57
许家印当庭认罪:一个人不可能制造2.4万亿的窟窿

许家印当庭认罪:一个人不可能制造2.4万亿的窟窿

次元君情感
2026-04-14 17:59:17
大量中国游客滞留,航班全取消!

大量中国游客滞留,航班全取消!

吉刻新闻
2026-04-14 18:38:05
美股深夜全线大涨,半导体股回调,闪迪跌超4%,黄金突破4800美元,原油跳水跌超6%

美股深夜全线大涨,半导体股回调,闪迪跌超4%,黄金突破4800美元,原油跳水跌超6%

21世纪经济报道
2026-04-14 22:36:27
直接上位?缺少4大主力带队完成15分逆转,球迷:杜锋可以下课了

直接上位?缺少4大主力带队完成15分逆转,球迷:杜锋可以下课了

弄月公子
2026-04-14 23:34:26
64岁陈庭威:没老婆没孩子,定居广东住豪宅,不服老打球很精彩

64岁陈庭威:没老婆没孩子,定居广东住豪宅,不服老打球很精彩

白面书誏
2026-04-13 19:08:56
陕西29岁男子聚餐后遭发小捅刺身亡,两人发生口角凶手当场买刀行凶,被害人今年准备结婚,女友也在案发现场;母亲流泪旁听庭审求重判

陕西29岁男子聚餐后遭发小捅刺身亡,两人发生口角凶手当场买刀行凶,被害人今年准备结婚,女友也在案发现场;母亲流泪旁听庭审求重判

大象新闻
2026-04-14 23:49:02
陈丽华顶奢收藏,从鸽血红到天价帝王绿手镯,都比不上她看家之宝

陈丽华顶奢收藏,从鸽血红到天价帝王绿手镯,都比不上她看家之宝

电影烂番茄
2026-04-12 22:56:39
千亿投入打水漂?比亚迪把快充做到加油级,却败给低素质车主

千亿投入打水漂?比亚迪把快充做到加油级,却败给低素质车主

铿锵格斗
2026-04-14 14:52:28
福州一河道涌现大量罗非鱼,居民:目测有几千条,整个河段都这样

福州一河道涌现大量罗非鱼,居民:目测有几千条,整个河段都这样

新京报
2026-04-14 21:11:38
明道晒2岁女儿正脸照,手长脚长颜值像爸,一家定居上海生活富足

明道晒2岁女儿正脸照,手长脚长颜值像爸,一家定居上海生活富足

往史过眼云烟
2026-04-14 19:41:44
大量硼砂,别再给家里人吃了!这10类食物最易掺硼砂,超危险

大量硼砂,别再给家里人吃了!这10类食物最易掺硼砂,超危险

笑熬浆糊111
2026-04-13 00:05:12
特朗普已做好开战准备?王毅曾警告:中美一旦冲突,结局只剩一个

特朗普已做好开战准备?王毅曾警告:中美一旦冲突,结局只剩一个

微风轻拂面
2026-04-14 15:44:00
春晚爆红后,她洗完澡从23楼一跃而下,临终时最后喊了声“妈妈”

春晚爆红后,她洗完澡从23楼一跃而下,临终时最后喊了声“妈妈”

北纬的咖啡豆
2026-04-14 15:02:10
访陆成败笔?最新民调出炉,郑丽文支持率倒数,蒋万安捡了大漏?

访陆成败笔?最新民调出炉,郑丽文支持率倒数,蒋万安捡了大漏?

牛锅巴小钒
2026-04-14 13:36:35
美媒:美国海上封锁伊朗 超15艘美军舰已到位

美媒:美国海上封锁伊朗 超15艘美军舰已到位

新华社
2026-04-14 11:38:02
广东一保安抓老鼠时被其咬伤出血,用白酒冲洗伤口,10天后高烧超40°C!

广东一保安抓老鼠时被其咬伤出血,用白酒冲洗伤口,10天后高烧超40°C!

佛山电视台小强热线
2026-04-14 19:30:30
2026-04-15 00:19:00
量子位 incentive-icons
量子位
追踪人工智能动态
12469文章数 176448关注度
往期回顾 全部

科技要闻

离职同事"炼化"成AI?这届公司不需要活人了

头条要闻

54岁班主任带15岁女孩到宾馆开房猥亵:将她压到床上

头条要闻

54岁班主任带15岁女孩到宾馆开房猥亵:将她压到床上

体育要闻

带出中超最大黑马!他让球迷们“排队道歉”

娱乐要闻

网曝钟丽缇代孕要了个男孩 备孕近10年

财经要闻

许家印认罪,他和恒大还有多少欠债?

汽车要闻

售12.99万起/续航2000km 风云T9L上市

态度原创

健康
教育
手机
时尚
数码

干细胞抗衰4大误区,90%的人都中招

教育要闻

他们眼里的光被点燃!中华中学首届南大班学习成果汇报

手机要闻

三星Galaxy系列手机/平板在美国市场涨价,最高涨幅达80美元

坏事做尽的疯女人,集体翻红了

数码要闻

三款小平板扎堆发布!红魔、红米、OPPO,谁会是大家的菜?

无障碍浏览 进入关怀版