网易首页 > 网易号 > 正文 申请入驻

全球OCR最强模型仅0.9B!百度文心衍生模型刚刚横扫4项SOTA

0
分享至

衡宇 发自 凹非寺
量子位 | 公众号 QbitAI

全球AI多模态竞速激战正酣,百度又放了个大招!

旗下新模型凭借0.9B参数量,在最新OmniDocBench V1.5榜单上拿下92.6分的成绩,获得综合性能全球第一。

它就是百度刚刚发布并在Day 1就开源的自研多模态文档解析模型PaddleOCR-VL

(ps:0.9B参数量,对开发者的个人电脑真的炒鸡友好!)

发布16小时内,该模型就登顶了抱抱脸Trending全球第一。

非常抢眼的是,这款模型不仅得分高,它还在文本识别、公式识别、表格理解、阅读顺序四大核心能力上全面拿下SOTA,成为当前唯一在这四个维度全部排名第一的模型,刷新了全球OCR VL模型性能的新高线。

PaddleOCR-VL是一款面向复杂文档结构解析而设计的模型,是百度文心大模型体系下专注文档解析任务的轻量化衍生产品,具备极强的行业落地导向和平台集成能力,能轻松看懂令人头秃的PDF和图片。

敲黑板划重点:它真的能理解格式杂、长度长的文档中的逻辑结构、表格关系、数学表达等等

和小红书等平台上,这个模型已经被大家先用起来并分享使用体验。

实用又好用,已经收获“哇”声一片。

在AI从感知到认知不断跃迁的当下,当模型不再只是识字工具,变成了具备结构感知与语义还原能力的利器,OCR在AI时代的意义也被彻底改写。

登顶OmniDocBench,四大核心能力全线SOTA

PaddleOCR-VL登顶的OmniDocBench V1.5是目前全球衡量文档解析能力最具权威性,也最具挑战性的评测体系之一。

它经清华大学、阿里达摩院、上海人工智能实验室等联合发布,由开源社区推动发展,主要面向真实场景中的PDF文档解析任务,包含1355页PDF,涵盖9种文档类型、4种布局类型和3种语言类型,以及文本、表格、公式、阅读顺序等多维任务。

在最新一期OmniDocBench V1.5榜单中,PaddleOCR-VL以92.6的综合得分问鼎榜首

这顶全球桂冠背后,其实标志着该模型在模型结构设计、能力理解广度和任务适配性上的整体优势。

尤其值得注意的是,PaddleOCR-VL核心模型参数仅0.9B——以轻量之身越级打怪,正面超越了Gemini-2.5 Pro、GPT-4o等与其体量悬殊的巨型多模态大模型,同时击败了OCR领域的垂直模型dots.ocr、MinerU等等。

更重要的是,PaddleOCR-VL以一己之身刷新了四项核心能力的SOTA

第一项,文本识别

PaddleOCR-VL以96.5的成绩拿下全场最高分。

技术报告显示,PaddleOCR-VL模型支持109种语言,覆盖中文、英文、法文、阿拉伯文等主流语种,并在手写、竖排、艺术字体等复杂形态下也保持极高识别精度,打破了传统OCR“只识打印体”的能力瓶颈。

需要注意的是,OmniDocBench主要评测还局限在中英文印刷体上。

如果拉齐到手写、古籍、多语种这些更复杂的场景,PaddleOCR-VL能以更惊人的优势甩开现有多模态和OCR模型。

再来看这张被骑手加点餐人“折磨”到皱皱巴巴的外卖单,部分文字因折角、单据变形而被遮挡;因为拍摄光线不好,单据上产生了明暗阴影……

就算是面对外卖单的变形和拍摄环境光照不均,PaddleOCR-VL也没在怕的:

第二项,公式识别

它CDM得分高达0.9453,远超其他对标模型,能精准还原论文、教材、试卷中复杂的数学公式,支持Latex格式生成——终于不用再手敲Latex了,抹泪。

在公式识别单项测评集上,PaddleOCR-VL的成绩为91.4,超过MinerU、MonkeyOCR-pro-3B等OCR界网红模型,也是能力测试中唯一得分超过90的模型。

第三项,表格理解

PaddleOCR-VL能够精准解析财报、统计报表中的嵌套表格与合并单元格,将非结构化图像信息快速转换为结构化数据。

单项评测中,该模型得分达到89.8,在真实场景适配性上表现优异。

第四项,阅读顺序

这项能力让它能够像人一样读文档,具体来说,PaddleOCR-VL可以自动判断页面中标题、正文、图片、图注的阅读逻辑,实现智能还原人类阅读习惯。

技术报告显示,PaddleOCR-VL的阅读顺序预测误差(Reading Order Edit Distance)仅有0.043,是该榜单所有模型中最优的表现。

BTW,四项核心能力外的一些能力,PaddleOCR-VL也稳稳没在怕的。

比如现在新闻、报表中经常会碰到的图表,处理起来同样是小菜一碟:

从语言到公式,从表格到阅读逻辑,多项评测中,PaddleOCR-VL几乎在所有维度上实现了人类级理解——

不仅能够还原多栏报纸的复杂排版,还能智能重建教材中的多页笔记结构,准确分辨内容逻辑与版式结构。

回到这个成绩背后,我们看到的不止是模型能力的突破,更是AI逐步逼近人类文档理解方式的一次真实跃迁。

小体量,大能量,创新设计突破逐行识别

传统OCR系统大多采用逐行识别策略,面对多栏、嵌套、错行、图文混排等复杂版面时往往力不从心,容易出现错位、信息遗漏等问题。

PaddleOCR-VL之所以拥有“像人一样理解结构”的能力,一方面是其在数据构建与训练策略上完成了优秀的系统工程——

整个模型虽然只有0.9B参数量,但在训练过程中,共使用超3000万样本

这些训练数据涵盖文本、表格、公式、图表等多模态信息,数据来源包括公开数据、自动合成数据、互联网采样数据和百度自研数据,辅以难例挖掘机制,保证训练集的多样性和挑战性。

另一方面,也是最重要的一方面,PaddleOCR-VL研发团队从底层架构上进行了革新

从架构层面来看,PaddleOCR-VL采用了创新性的两阶段架构:

第一阶段由PP-DocLayoutV2模型负责对文档版面进行分析,定位语义区域,并预测阅读顺序。

第二阶段则由PaddleOCR-VL-0.9B进行细粒度识别,完成文本、表格、公式、图表等多类内容的结构化输出。

相较端到端黑盒式方案,这种模块解耦、任务细化的设计让模型在面对复杂版面任务时,表现得更稳定、更高效,有效避免了多模态模型常见的幻觉与错位问题。

作为文心4.5衍生模型,PaddleOCR-VL-0.9B通过融合NaViT动态分辨率视觉编码器与ERNIE-4.5-0.3B语言模型,在效率与精度上取得了双重突破。

推理方面,PaddleOCR-VL在单张A100上推理速度达1881token/s。

精度方面,PaddleOCR-VL实现了文本编辑距离仅0.035、公式识别CDM 91.43、表格 TEDS 89.76、阅读顺序预测误差值0.043的纪录级表现。

除上之外,PaddleOCR-VL还集成了四大技术突破。

  • 高性能、资源高效的文档解析能力:采用轻量化设计与异步推理机制,显著领先同类模型。
  • 复杂文档内容的高级解析能力:支持复杂公式、嵌套表格、手写图表等难度场景,适配真实业务流程。
  • 图表结构化转换能力:能将柱状图、饼图等图像信息结构化为表格格式,支撑自动化分析。
  • 全面的多语种文本识别:涵盖109种语言,特别强化对竖排、艺术字体、手写字符等的识别能力。

看到这里,我们拿出了最近被网友在GitHub上扒出的宇树科技创始人王兴兴的硕士毕业论文《新型电驱式四足机器人研制与测试》

这篇近10年前的论文,里面含大量行内或独立的Latex公式,图表交错,插图与文字混排,引用繁多,是一份非常合格的用来测试PaddleOCR-VL真实能力的超绝必胜技(doge)。

在Document Parsing模式(这个模式可识别具有结构化布局的整页文档,例如报告、论文或杂志)下,无论是像人一样自动判断页面逻辑,并识别和分析原论文中的各项内容——

还是传统OCR模型难以正确提取的复杂流程图——

亦或者集公式和图像于一页的case——

PaddleOCR-VL真的全部都完美处理了……

难怪PaddleOCR-VL在全球大模型混战中,在OCR这条赛道上实现精度、速度、功耗的三赢。

它打破了“大模型才有好效果”的行业迷思,证明了架构合理、任务聚焦的“小”模型同样可以在实际应用中跑赢大模型,具备更强的落地能力与部署价值。

这也使其成为文心4.5大模型家族中最具工程价值与产业可行性的代表之一,补足文心在复杂文档解析任务上的关键拼图。

全球大模型都在卷,百度派出文心最强衍生模型先跑一步

在产业智能化浪潮中,OCR早已成为各行业不可或缺的数字化基础设施,是推动万物智能化、流程自动化、信息结构化的关键底层能力。

生活中诸多现实场景,如金融商业、教育与科研、政务与公共服务、文化与历史保护等,OCR都在起到降本增效的不可替代作用。

尤其在文档密集型行业,PaddleOCR-VL能看、能读、能理解,可以作为“文档工作助手”接入各种流程即刻上岗,真正帮企业提效、帮用户省心。

大模型浪潮汹涌而来的当下,PaddleOCR-VL的结构化输出能力还能与RAG系统深度融合,为大模型提供更高质量、更可控的知识输入,构建起从“非结构化文档”到“可用知识”的闭环。这也意味着,它不仅是一款文档解析工具,更是AI时代企业知识中台建设中的关键基础设施。

没错,进入大模型技术汹涌澎湃的时代,OCR已经被赋予了前所未有的战略价值——它不再只是帮助或代替人识字的工具,而是进阶成为AI理解世界的入口

首先可以看到,如今的现实世界,信息大多以非结构化文档、图片、扫描件的形式存在,OCR承担了“从真实世界到数字世界”的转换职责。

与此同时,在RAG、智能搜索、知识问答等系统中,OCR识别质量决定了输入信息的保真度。输入有多准,最终输出才有多可靠。

不知不觉间,OCR其实已经被时代技术浪潮推上了“AI新应用链条的守门人”之位。

于是也就不难理解,成为底层语义理解的试金石的OCR,已成为全球科技巨头大模型布局中不可或缺的一环。Mistral AI、Google、OpenAI、阿里、腾讯等均在此方向加大投入,试图将视觉-语言模型延伸至文档语义深层解析。

PaddleOCR-VL正是百度瞄准这一趋势对OCR能力进行的革新性升级。

作为文心4.5体系中唯一以OCR为核心任务深度优化的产品,它将文心的理解能力延展至最复杂、最具结构挑战的文档领域,将文心的理解能力进一步拓展到复杂文档结构解析任务,在语义理解的精度与广度上打开了新边界

更重要的是,PaddleOCR-VL的领先并非大力出奇迹的参数优势或偶然的工程叠加。

PaddleOCR-VL综合性能全球第一、四项核心能力拿下新SOTA的力量,源自百度在多模态智能方向上多年持续布局的系统性成果。通过融合NaViT动态分辨率视觉编码器与ERNIE-4.5-0.3B语言模型,从文心主干模型到衍生垂类模型,这一体系化建设终于在OCR领域结出硕果。

AI正在重构信息的入口,而格式繁复内容丰富的文档,是世界最难被理解的一种语言。谁能读懂现实世界的文档,谁就掌握了理解现实的钥匙。

PaddleOCR-VL的出现,把这把钥匙从参数堆砌的巨兽手中,交还给真正理解场景的设计者。

它的诞生还标志着中国模型第一次以“划线者”的姿态,在全球多模态文档解析赛道上写下自己的标准答案。

GitHub:
https://github.com/PaddlePaddle/PaddleOCR
技术报告:
https://arxiv.org/pdf/2510.14528
体验Demo地址:
https://aistudio.baidu.com/application/detail/98365

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
和没教养的人一起吃饭,能恶心到啥程度?如果我是这样,请打死我

和没教养的人一起吃饭,能恶心到啥程度?如果我是这样,请打死我

夜深爱杂谈
2026-06-02 21:07:12
蝉联欧冠后开启重建,大巴黎队长马尔基尼奥斯等五人或离队

蝉联欧冠后开启重建,大巴黎队长马尔基尼奥斯等五人或离队

星耀国际足坛
2026-06-02 22:59:16
游客吃潮汕火锅嫌“口太淡”要挟写“5000字差评”要免单,火锅店最新回应:高峰期排队上千桌,为顾全大局妥协

游客吃潮汕火锅嫌“口太淡”要挟写“5000字差评”要免单,火锅店最新回应:高峰期排队上千桌,为顾全大局妥协

洪观新闻
2026-06-02 13:19:43
女老师上课汗流浃背,博主感叹老师不容易,反遭全网谩骂、泼冷水

女老师上课汗流浃背,博主感叹老师不容易,反遭全网谩骂、泼冷水

谭谈社会
2026-06-01 17:39:07
54岁吴越下厨被拍,单身生活细节让无数人沉默

54岁吴越下厨被拍,单身生活细节让无数人沉默

天马幸福的人生
2026-05-31 14:54:35
你最接近生理极限的一次经历是什么?网友分享让人目瞪口呆!

你最接近生理极限的一次经历是什么?网友分享让人目瞪口呆!

夜深爱杂谈
2026-04-09 19:39:13
“不理解但尊重”,家长打扮粉嫩幼态送娃上学,网友:很不得体

“不理解但尊重”,家长打扮粉嫩幼态送娃上学,网友:很不得体

蝴蝶花雨话教育
2026-06-03 00:05:12
菲戈:不能拿姆巴佩和C罗比较

菲戈:不能拿姆巴佩和C罗比较

懂球帝
2026-06-02 12:28:06
3年斩获12个冠军!恩里克和大巴黎续约四年,冲击欧冠三连冠!

3年斩获12个冠军!恩里克和大巴黎续约四年,冲击欧冠三连冠!

海浪星体育
2026-06-02 11:32:20
37岁奚梦瑶!嫁给何猷君生一对儿女,如今补办婚礼超幸福

37岁奚梦瑶!嫁给何猷君生一对儿女,如今补办婚礼超幸福

小妹讲史
2026-06-02 16:13:11
蒋中正亲笔书写的任命状冲上热议!书法的好坏,永远意见不一?

蒋中正亲笔书写的任命状冲上热议!书法的好坏,永远意见不一?

书画相约
2026-06-01 07:23:51
帕克:在曼联没人规劝加纳乔吗?他现在600次传球有555次回传

帕克:在曼联没人规劝加纳乔吗?他现在600次传球有555次回传

懂球帝
2026-06-02 20:59:08
被骂疯子的米莱终结阿根廷几十年赤字

被骂疯子的米莱终结阿根廷几十年赤字

桂系007
2026-04-28 15:20:23
深圳K11店员讥讽顾客穷逛后续:脸丢光,工作没了,商场惨遭牵连

深圳K11店员讥讽顾客穷逛后续:脸丢光,工作没了,商场惨遭牵连

老特有话说
2026-06-02 21:21:03
普京亮剑,下达立陶宛“灭国”警告,不到24小时,立总统紧急灭火

普京亮剑,下达立陶宛“灭国”警告,不到24小时,立总统紧急灭火

李健政观察
2026-06-02 19:05:48
豆包预计6月下旬正式收费 每月最低68元 你还会继续用吗?

豆包预计6月下旬正式收费 每月最低68元 你还会继续用吗?

TechWeb
2026-06-02 09:19:35
打脸!巴萨 8000 万核心刚表忠心,转头就接近加盟阿森纳

打脸!巴萨 8000 万核心刚表忠心,转头就接近加盟阿森纳

澜归序
2026-06-02 07:29:35
7年败光2个亿,邹市明冉莹颖共同发文,终究还是踏出了这一步

7年败光2个亿,邹市明冉莹颖共同发文,终究还是踏出了这一步

林轻吟
2026-02-11 11:29:40
罗马诺爆料!曼联全力挖角皇马巨星,有望成B费之后队史最佳引援

罗马诺爆料!曼联全力挖角皇马巨星,有望成B费之后队史最佳引援

夜白侃球
2026-06-02 11:05:46
中央5台直播女排时间表:6月3日CCTV5直播中国女排,李盈莹缺阵

中央5台直播女排时间表:6月3日CCTV5直播中国女排,李盈莹缺阵

薇说体育
2026-06-02 11:49:56
2026-06-03 02:44:49
量子位 incentive-icons
量子位
追踪人工智能动态
12731文章数 176476关注度
往期回顾 全部

科技要闻

烧掉千亿后,美团、阿里、京东谁先止血?

头条要闻

演员魏宗万去世 曾在94版《三国演义》中饰演"司马懿"

头条要闻

演员魏宗万去世 曾在94版《三国演义》中饰演"司马懿"

体育要闻

1米74的业余联赛替补,在英超踢中卫

娱乐要闻

奚梦瑶何猷君补办婚礼超幸福

财经要闻

智元和宇树的“暗战”愈演愈烈

汽车要闻

星途神秘新车轮廓曝光 又一款性能SUV要来了?

态度原创

数码
时尚
教育
艺术
公开课

数码要闻

苹果watchOS 27前瞻:改进心率追踪、引入新表盘、升级Siri

蓝色系下装看着清爽不闷,裤子、裙子都凉快,随便穿都不出错

教育要闻

“没选上少先队,我女儿疯了”,无理取闹的家长,养不出正常孩子

艺术要闻

抖音砸60个亿,要盖一座“不像医院”的医院?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版