网易首页 > 网易号 > 正文 申请入驻

阿里巴巴团队开源,OCR 又来一个高手,第一!

0
分享至

大家好,我是Ai学习的老章

OCR 我写过太多了,每隔一段时间就有新模型出来:

今天这位选手是阿里巴巴团队开源的Logics-Parsing-v2,在两个主流 Benchmark 上直接拿了第一:自家的 LogicsDocBench 拿了82.16 分,公开的 OmniDocBench-v1.5 拿了93.23 分,都是目前最高分。


https://www.modelscope.cn/studios/Alibaba-DT/Logics-Parsing/summary?spm=label.24dbbd5e.0.0.34862eb7aIqtVk 这模型有啥不一样?

市面上 OCR 模型一大把,Logics-Parsing-v2 凭啥能打?核心就两个字:全能

传统 OCR 做的事情比较窄——识别文字、提取表格、处理公式。但实际文档远比这复杂:报纸那种多栏排版、跨页表格、竖排文字、手写内容……这些"脏活累活",大部分模型处理得都不太行。

Logics-Parsing-v2 在 v1 的基础上,除了把这些传统任务做得更好之外,还加了一个全新的能力维度,叫Parsing-2.0——支持解析以下内容:

  • 流程图 / 思维导图→ 输出 Mermaid 格式

  • 乐谱→ 输出 ABC 记谱法

  • 代码块 / 伪代码→ 结构化提取

  • 化学分子式→ SMILES 格式

你没看错,它能看懂乐谱。这在 OCR 领域算是相当炸裂的能力了。


Logics-Parsing-v2 能力概览——从传统文档到流程图、乐谱、代码全覆盖 Benchmark 成绩单

先看自家的LogicsDocBench,这是阿里专门建的评测集,900 页 PDF,覆盖三大场景:

场景

页数

包含内容

STEM 文档

218 页

物理、数学、工程等十多个学科

复杂排版

459 页

多栏、跨页表格、竖排、图文混排

Parsing-2.0

223 页

化学式、乐谱、代码块、流程图

在这个 Benchmark 上,Logics-Parsing-v2 以82.16 分的总分排名第一,远超其他选手。


LogicsDocBench 评测结果——Logics-Parsing-v2 全面领先

再看公开的OmniDocBench-v1.5,这个是业界公认的文档解析评测标准。Logics-Parsing-v2 拿了93.23 分,同样是最高分——比 Gemini 2.5 Pro、GPT-5、豆包 1.6 这些闭源大模型都高。


OmniDocBench-v1.5 评测结果——开源模型首次登顶

说实话,开源 OCR 模型在 OmniDocBench 上打赢闭源大模型,这还是头一次。之前我测过不少 OCR 模型,闭源的 Mathpix、doc2x 一直是天花板,现在这个天花板被捅穿了。

跟其他模型比怎么样?

在阿里自建的 Benchmark 上(v1 评测,数值越低越好,TEDS 越高越好):

几个值得关注的对比:

  • vs Gemini 2.5 Pro:Logics-Parsing 在英文文本(0.089 vs 0.115)、表格(0.165 vs 0.154 接近)上都有竞争力

  • vs Mathpix:公式识别 Mathpix 还是很强(0.06 vs 0.106),但综合能力 Logics-Parsing 更好

  • vs MonkeyOCR / GOT-OCR:全面领先,不在一个档次

  • vs 通用大模型(GPT-5、Qwen2.5VL-72B):专用模型优势明显

一个模型,端到端推理,不需要复杂的 pipeline,直接图片进、HTML 出。这个思路比传统的"检测+识别+后处理"流水线简洁太多了。

输出格式很讲究

Logics-Parsing-v2 输出的不是纯文本,而是结构化 HTML

每个内容块都带有:

  • 类别标签:段落、表格、图片、公式等

  • 边界框坐标:精确到像素级的位置信息

  • OCR 文本:识别出的内容

对于 Parsing-2.0 的新场景,输出格式也做了定制:

  • 流程图 →Mermaid语法(可以直接渲染)

  • 乐谱 →ABC 记谱法(音乐人看得懂)

  • 化学式 →SMILES格式(化学标准表示)

这意味着你拿到输出之后,不需要再做什么后处理,直接就能用。

怎么跑?

部署很简单:

conda create -n logics-parsing-v2 python=3.10
conda activate logics-parsing-v2
pip install -r requirements.txt

下载模型(HuggingFace 或 ModelScope 二选一):

# HuggingFace
pip install huggingface_hub
python download_model_v2.py -t huggingface


# ModelScope(国内更快)
pip install modelscope
python download_model_v2.py -t modelscope

推理一行搞定:

python3 inference_v2.py --image_path 你的图片路径 --output_path 输出目录 --model_path 模型路径

基于 Qwen3-VL 架构,对 GPU 有一定要求,但不算离谱。

实际效果展示

说了这么多数据,看几个实际效果:

扭曲文档识别——拍照角度歪斜、纸张弯曲,照样准确识别:


扭曲文档识别效果

STEM 文档——复杂的数学公式、物理图表,结构完整保留:


STEM 文档解析效果

代码块识别——不只是识别文字,还能保留代码结构:


代码块识别效果

流程图解析——识别流程图并转成 Mermaid 代码,可以直接渲染:


流程图解析效果

乐谱识别——这个真的是第一次在 OCR 模型里见到:


乐谱识别效果 总结

Logics-Parsing-v2 给我的感觉就是:OCR 这个赛道,终于有一个模型把"全能"两个字做到位了

  • 双 Benchmark 第一:LogicsDocBench 82.16,OmniDocBench-v1.5 93.23

  • Parsing-2.0:流程图、乐谱、代码、化学式,传统 OCR 碰都不碰的东西它全能解

  • 端到端单模型:不需要复杂 pipeline,图片进 HTML 出

  • 开源免费:代码和模型全部开放

如果你在做文档数字化、论文解析、知识库构建这类工作,这个模型真的值得试试。

  • GitHub:https://github.com/alibaba/Logics-Parsing

  • HuggingFace 模型:https://huggingface.co/Logics-MLLM/Logics-Parsing-v2

  • 在线 Demo:https://www.modelscope.cn/studios/Alibaba-DT/Logics-Parsing/summary

制作不易,如果这篇文章觉得对你有用,可否点个关注。给我个三连击:点赞、转发和在看。若可以再给我加个,谢谢你看我的文章,我们下篇再见!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
全美50州数百万人游行,要求特朗普下台

全美50州数百万人游行,要求特朗普下台

飘逸语人
2026-03-28 21:48:51
巴基斯坦称伊朗已同意再放行20艘巴船只通过霍尔木兹海峡

巴基斯坦称伊朗已同意再放行20艘巴船只通过霍尔木兹海峡

财联社
2026-03-29 03:34:05
演员李现发文:快折磨死我了!眼下杭州高发,有人洗个热水脸红一整天

演员李现发文:快折磨死我了!眼下杭州高发,有人洗个热水脸红一整天

都市快报橙柿互动
2026-03-28 10:19:28
我去!内娱最大的性丑闻,拍出来了

我去!内娱最大的性丑闻,拍出来了

皮蛋儿电影
2026-03-04 14:39:25
万科创始人妻子解除边控

万科创始人妻子解除边控

新浪财经
2026-03-26 19:55:01
欧洲人在性方面有多开放?德国再创历史!女厕所、女浴室随便进了

欧洲人在性方面有多开放?德国再创历史!女厕所、女浴室随便进了

西楼知趣杂谈
2026-03-24 14:38:30
18分+20分+21分!CBA又一国产顶级得分手诞生,郭士强会给机会吗

18分+20分+21分!CBA又一国产顶级得分手诞生,郭士强会给机会吗

老叶评球
2026-03-28 10:28:11
广州市委原书记郭永航被查,曾长期在深圳工作

广州市委原书记郭永航被查,曾长期在深圳工作

观察者网
2026-03-27 18:27:06
很多人都不知道航母甲板有多厚?看完就知道,航母为何这么强大

很多人都不知道航母甲板有多厚?看完就知道,航母为何这么强大

风雨与阳光
2026-03-22 03:25:53
乔-科尔:我认为C罗可能每晚都在遗憾,渴望能像梅西一样出色

乔-科尔:我认为C罗可能每晚都在遗憾,渴望能像梅西一样出色

懂球帝
2026-03-28 21:40:23
美国正制定“致命一击”方案?

美国正制定“致命一击”方案?

陆弃
2026-03-27 09:56:24
战争已到临界点!以色列下达决战书:48小时定生死,立刻启用核弹

战争已到临界点!以色列下达决战书:48小时定生死,立刻启用核弹

梦史
2026-03-28 12:31:05
穆帅放弃下赛季重返英超,执教纽卡,已本菲卡达成协议,继续执教

穆帅放弃下赛季重返英超,执教纽卡,已本菲卡达成协议,继续执教

福酱的小时光
2026-03-28 21:57:23
张雪峰葬礼炸出“牛鬼蛇神”,“大人物”来了,女儿的话字字催泪

张雪峰葬礼炸出“牛鬼蛇神”,“大人物”来了,女儿的话字字催泪

悦君兮君不知
2026-03-28 19:19:57
惊天逆转!杨瀚森绝杀马刺,逆转引发广泛讨论!

惊天逆转!杨瀚森绝杀马刺,逆转引发广泛讨论!

我是阿Sen
2026-03-28 14:42:52
美国安插在中国多年的间谍头子,居然是人人都想送锦旗的大善人。

美国安插在中国多年的间谍头子,居然是人人都想送锦旗的大善人。

阿七说史
2026-03-26 15:52:30
伊朗导弹袭海法,炼油厂黑烟冲天,电力系统告急谁在背后操盘?

伊朗导弹袭海法,炼油厂黑烟冲天,电力系统告急谁在背后操盘?

兰亭墨未干
2026-03-29 03:32:29
泽连斯基称美国逼乌割让领土,特朗普:你现在不让以后就被占了

泽连斯基称美国逼乌割让领土,特朗普:你现在不让以后就被占了

长野星河散去了
2026-03-29 03:00:47
女婿伺候岳母10年,妻子提离婚他笑着答应,出民政局后妻子懵了

女婿伺候岳母10年,妻子提离婚他笑着答应,出民政局后妻子懵了

晓艾故事汇
2025-08-07 17:10:25
张雪峰生前推荐的6所高校,性价比极高,记得默默收藏!

张雪峰生前推荐的6所高校,性价比极高,记得默默收藏!

教育导向分享
2026-03-25 22:32:02
2026-03-29 04:19:00
Ai学习的老章 incentive-icons
Ai学习的老章
Ai学习的老章
3295文章数 11118关注度
往期回顾 全部

科技要闻

华为盘古大模型负责人王云鹤确认离职

头条要闻

美媒:和欧盟"外长"发生激烈交锋 鲁比奥"显然很恼火"

头条要闻

美媒:和欧盟"外长"发生激烈交锋 鲁比奥"显然很恼火"

体育要闻

“我是全家最差劲的运动员”

娱乐要闻

陈牧驰陈冰官宣得子 晒一家三口握拳照

财经要闻

卧底"科技与狠活"培训:化工调味剂泛滥

汽车要闻

置换补贴价4.28万起 第五代宏光MINIEV正式上市

态度原创

本地
亲子
健康
公开课
军事航空

本地新闻

在潍坊待了三天,没遇到一个“潍坊人”

亲子要闻

小孩子能口无遮拦到什么程度!网友:恨不得当场找个地缝钻进去

干细胞抗衰4大误区,90%的人都中招

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美军中东基地损失最新披露

无障碍浏览 进入关怀版