最近,国产OCR真的频频破圈。
昨天10月21日,HuggingFace全球模型热榜前三——清一色全是OCR模型!
第一名:百度飞桨团队的 PaddleOCR-VL(已连续五天登顶)
第二名:DeepSeek-OCR
第三名:NanonetOCR。
可以说,OCR成了AI界的“新顶流”。
我试了一下百度的,复杂数学公式、化学公式、行书手写体,识别都很到位!
OCR(光学字符识别)早期只是“扫描识字”,但到了现在,它已经进化成了多模态文档理解技术:
不仅能识别文字,还能看懂表格、公式、排版、逻辑结构。
这正是大模型进入“非结构化信息”时代的关键一环。
而这次,全球性能第一,刷新OCR天花板的,是百度PaddleOCR-VL
在10月16日开源了自研多模态文档解析模型 PaddleOCR-VL。
虽然参数只有 0.9B(仅九亿),但性能直接碾压全球SOTA。
在国际权威评测 OmniBenchDoc V1.5 中,PaddleOCR-VL综合得分 92.56分,刷新全球纪录。
四大核心任务全线领先:
- 表格结构理解:93.52 vs DeepSeek的78.02,领先15.5分
- 公式识别:89.76 vs 89.45,更稳定精准
- 阅读顺序误差降低54%,输出更符合人类阅读逻辑
- 支持109种语言,从中文到阿拉伯语全覆盖
简单说,就是一个轻量、高效、全球通吃的OCR超级模型。
值得注意的是,这次评测用的 OmniBenchDoc V1.5,是由清华大学、阿里达摩院、上海AI Lab、OpenDataLab等多家机构联合发布的国际权威基准,被GPT-4o、Gemini-2.5、Qwen2.5-VL等主流模型采用。
换句话说,国产OCR这次不是“闭门自嗨”,而是在真正的全球舞台上拿下第一。
百度的PaddleOCR项目在GitHub Star已超 60k+,累计下载量超 900万,是唯一进入全球前十的中国OCR项目。
这场OCR“双连炸”,不仅让全球重新认识了中国AI的实力,也让AI的“眼睛”,看得更清、更快、更聪明。
我只想说:当AI开始真正理解文档,智能世界的大门,才算被彻底推开。
#PaddleOCR-VL #百度 #百度飞桨 #DeepSeek #AI异类弗兰克
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.