网易首页 > 网易号 > 正文 申请入驻

MonkeyOCR开启“文档理解”范式革命,笔记本也能本地部署

0
分享至

始智AI wisemodel.cn社区是源自中国的中立开放的AI开源社区。正在,欢迎加入共同成长。

还在为扫描版PDF、复杂的公式、海量的表格而烦恼吗?还在为昂贵的云服务、不稳定的网络连接而头疼吗?新版本MonkeyOCR-pro-1.2B不仅功能强大,更能轻松部署在你的笔记本电脑上,让你随时随地拥有一个私人文档处理专家!经过实际测试,它能够在个人电脑(Windows 系统、4060 GPU、8GB 显存)上成功部署。

不同于传统的OCR工具,MonkeyOCR构建了Structure-Recognition-Relation三元组解析范式,简化了模块化方案复杂的多工具流程,同时避免了处理整页文档时使用多模态大模型所带来的低效问题,能够较为精准地解析文档中的文本、公式、表格等多种元素,并理解它们之间的逻辑关系,最终生成Markdown格式文件。无论是科研论文、财务报表,还是书籍笔记,MonkeyOCR都有较强的处理能力。MonkeyOCR-pro-1.2B模型已上线始智AI-wisemodel开源社区,欢迎大家前去体验。

模型地址

https://wisemodel.cn/models/yuluoyun/MonkeyOCR-pro-1.2B

01.

核心优势


更强悍的性能

在衡量文档解析能力的综合评估基准OmniDocBench上,MonkeyOCR-pro-3B在中文和英文文档上均取得了最佳的综合性能,甚至超越了GPT-4o、Gemini 2.5-Pro、Qwen2.5VL-72B等闭源或超大模型。轻量化版本MonkeyOCR-pro-1.2B,在中文文档上的表现甚至超过初始3B版本MonkeyOCR-3B 7.4%。

在olmOCR-Bench上,MonkeyOCR-pro-1.2B的表现比Nanonets-OCR-3B高出7.3%。在OmniDocBench上MonkeyOCR-pro-1.2B中英文综合性能平均超过OCRFlux-3B 5%。


更快的速度

轻量化版本MonkeyOCR-pro-1.2B 相较于 MonkeyOCR-pro-3B,在性能仅下降约 1.6% 的情况下,推理速度提升了约 36%。

推理速度 (页/秒) - 不同GPU与PDF页数

VLM OCR 速度 (页/秒) - 不同GPU与PDF页数

02.

使用方法和本地部署

这里详细说明Linux系统和Windows原生的部署方案。


Linux系统

1、创建Conda环境

conda create -n MonkeyOCR python=3.10
conda activate MonkeyOCR

2、克隆仓库

git clone https://github.com/Yuliang-Liu/MonkeyOCR.git
cd MonkeyOCR

3、安装pytorch、MonkeyOCR以及各种必需包

exportCUDA_VERSION=126# for CUDA 12.6
# export CUDA_VERSION=118 # for CUDA 11.8
pip install paddlepaddle-gpu==3.0.0 -i https://www.paddlepaddle.org.cn/packages/stable/cu${CUDA_VERSION}/
pip install "paddlex[base]"

pip install torch==2.6.0 torchvision==0.21.0 torchaudio==2.6.0 --index-url https://download.pytorch.org/whl/cu${CUDA_VERSION}
pip install -e . 
# CUDA 12.6
pip install lmdeploy==0.8.0
# CUDA 11.8
pip install https://github.com/InternLM/lmdeploy/releases/download/v0.8.0/lmdeploy-0.8.0+cu118-cp310-cp310-manylinux2014_x86_64.whl --extra-index-url https://download.pytorch.org/whl/cu118

4、从wisemodel中下载模型权重

git clone https://www.wisemodel.cn/yuluoyun/MonkeyOCR-pro-1.2B.git

5、运行解析

python parse.py 


是你要解析的文件路径

6、如果出现triton.runtime.errors.OutOfResources: out of resource: shared memory这种类型的报错,运行

python tools/lmdeploy_patcher.py patch

可解决

7、Gradio Demo

 python demo/demo_gradio.py

一旦演示程序运行起来,您可以通过 http://localhost:7860 访问它。

原生Windows

1、创建Conda环境

conda create -n MonkeyOCR python=3.10
conda activate MonkeyOCR

2、克隆仓库

git clone https://github.com/Yuliang-Liu/MonkeyOCR.git
cd MonkeyOCR

3、安装pytorch、MonkeyOCR以及各种必需包

exportCUDA_VERSION=126# for CUDA 12.6
# export CUDA_VERSION=118 # for CUDA 11.8

pip install paddlepaddle-gpu==3.0.0 -i https://www.paddlepaddle.org.cn/packages/stable/cu${CUDA_VERSION}/
pip install "paddlex[base]"

pip install torch==2.6.0 torchvision==0.21.0 torchaudio==2.6.0 --index-url https://download.pytorch.org/whl/cu${CUDA_VERSION}
pip install -e .

# CUDA 12.6
pip install lmdeploy==0.8.0
# CUDA 11.8
# pip install https://github.com/InternLM/lmdeploy/releases/download/v0.8.0/lmdeploy-0.8.0+cu118-cp310-cp310-manylinux2014_x86_64.whl --extra-index-url https://download.pytorch.org/whl/cu118

在Windows系统中,triton没有原生支持,因此需要下载适配Windows的版本

pip install -U "triton-windows<3.4"

4、从wisemodel中下载模型权重

git clone https://www.wisemodel.cn/yuluoyun/MonkeyOCR-pro-1.2B.git

5、运行解析

python parse.py 


是你要解析的文件路径

6、如果出现triton.runtime.errors.OutOfResources: out of resource: shared memory这种类型的报错,运行

python tools/lmdeploy_patcher.py patch

可解决

7、Gradio Demo

python demo/demo_gradio.py

一旦演示程序运行起来,您可以通过 http://localhost:7860 访问它。

在Windows系统中,MonkeyOCR项目还提供了WSL2 + Docker的方案,为了适配更多电脑,项目也配有模型量化教程。

03.

效果展示

数学公式:

表格:

报纸:

财报:

04.

性能对比

1. OmniDocBench上不同任务的性能对比

2. OmniDocBench上不同文档类型的性能对比

3. olmOCR-bench的评测结果

编辑丨赵雅鑫

----- END -----

wisemodel相关:

中立开放AI开源生态


系列模型:

关于wisemodel更多

1

欢迎持续关注和支持

开源社区建设需要长期坚持和投入,更需要广大用户的积极参与、贡献和维护,欢迎大家加入wisemodel开源社区的志愿者计划和开源共创计划。期待更多开发者将开源成果,包括模型、数据集和代码等发布到 wisemodel.cn 社区,共建中立、开放的AI开源社区生态。欢迎扫码添加wisemodel微信,申请加入wisemodel社群,持续关注wisemodel.cn开源社区动态。

2

欢迎加盟wisemodel开源社区

始智AI wisemodel社区自2023年9月上线以来,逐渐成为影响力日益扩大的中立开放的AI开源社区,为了加快公司发展,我们长期需要技术、运营等人才加盟,技术侧重在AI infra、后端开发,熟悉K8S、模型训练和推理等技术, 以及熟悉开发者生态运营的成员,欢迎感兴趣的朋友加盟,可以通过添加wisemodel微信,或者将简历投递到邮箱:liudaoquan@wisemodel.cn

3

欢迎投稿优质内容

欢迎投稿分享人工智能领域相关的优秀研究成果,鼓励高校实验室、大企业研究团队、个人等,在wisemodel平台上分享各类优质内容,可以是AI领域最新论文解读、最新开源成果介绍,也可以是关于AI技术实践、应用和总结等。投稿可以发邮件到liudaoquan@wisemodel.cn,也可以扫码添加wisemodel微信。

4

关于wisemodel开源社区

始智AI wisemodel.cn开源社区由清华校友总会AI大数据专委会副秘书长刘道全创立,旨在打造和建设中立开放的AI开源创新社区,将打造成“HuggingFace”之外最活跃的AI开源社区,汇聚主要AI开源模型、数据集和代码等,欢迎高校科研院所、大型互联网公司、创新创业企业、广大个人开发者,以及政府部门、学会协会、联盟、基金会等,还有投资机构、科技媒体等,共同参与建设AI开源创新生态。

向上滑动查看

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
彭总视察哈军工,晚饭时看到一学员,便问陈赓:他有什么资格坐这

彭总视察哈军工,晚饭时看到一学员,便问陈赓:他有什么资格坐这

鹤羽说个事
2025-11-12 15:50:09
罕见女乒聚餐合影:刘诗雯反差最大,朱雨玲最显眼,陈梦还很青涩

罕见女乒聚餐合影:刘诗雯反差最大,朱雨玲最显眼,陈梦还很青涩

揽星河的笔记
2025-11-13 12:28:04
犯规,汪顺、董亦凡、洪金权、何峻毅无缘决赛

犯规,汪顺、董亦凡、洪金权、何峻毅无缘决赛

极目新闻
2025-11-17 11:12:41
穿衣打扮选择适合自己的肤色和气质的颜色和款式才是最重要的

穿衣打扮选择适合自己的肤色和气质的颜色和款式才是最重要的

牛弹琴123456
2025-11-16 09:52:07
杨翰森21分助湖人胜,数据证明他是关键功臣!

杨翰森21分助湖人胜,数据证明他是关键功臣!

小蒋爱唠嗑
2025-11-17 13:24:03
不许中国改变现状,我方首次明确侵略,敢保台解放军必攻日本土?

不许中国改变现状,我方首次明确侵略,敢保台解放军必攻日本土?

阿芒娱乐说
2025-11-17 12:53:47
26分7板13助,火箭又挖到奇兵!伊森伤情出炉无碍休城5大优势冲冠

26分7板13助,火箭又挖到奇兵!伊森伤情出炉无碍休城5大优势冲冠

锅子篮球
2025-11-16 17:13:24
山西摔狗反杀案,为何检方认为防卫过当?被告律师一语道破真相

山西摔狗反杀案,为何检方认为防卫过当?被告律师一语道破真相

慢半拍sir
2025-11-15 21:23:31
杨兰兰最新:不上课、不社交、英语差,喜欢买买买,香奈儿VVIP

杨兰兰最新:不上课、不社交、英语差,喜欢买买买,香奈儿VVIP

麦大人
2025-10-09 16:23:06
范丞丞又背刺范冰冰!易烊千玺面部出问题了!

范丞丞又背刺范冰冰!易烊千玺面部出问题了!

八卦疯叔
2025-11-17 12:47:43
四川盆地秋日明媚“返场” 最冷时段在18日-19日早上

四川盆地秋日明媚“返场” 最冷时段在18日-19日早上

封面新闻
2025-11-17 13:33:05
中央5台转播全运会乒乓团体赛时间表公布,11月17日赛程一览

中央5台转播全运会乒乓团体赛时间表公布,11月17日赛程一览

阿諢体育
2025-11-17 08:52:41
邓家佳在重庆吃烤鱼被偶遇 小姨妈气质绝了 脸小精致美得恰到好处

邓家佳在重庆吃烤鱼被偶遇 小姨妈气质绝了 脸小精致美得恰到好处

娱圈小愚
2025-11-17 10:30:34
全运会乒乓:马龙连赢2场击败“小马龙”!北京男团强势晋级8强

全运会乒乓:马龙连赢2场击败“小马龙”!北京男团强势晋级8强

全言作品
2025-11-17 12:02:20
葡萄牙队友集体发力劝退C罗 主场9-1横扫亚美尼亚直通2026世界杯

葡萄牙队友集体发力劝退C罗 主场9-1横扫亚美尼亚直通2026世界杯

智道足球
2025-11-17 08:17:53
"万人痛批"宋佳拿影后!成龙,这就是为啥我们不愿去电影院的答案

"万人痛批"宋佳拿影后!成龙,这就是为啥我们不愿去电影院的答案

史行途
2025-11-17 12:23:30
欧美彻底傻眼!中国北重耗时三年,成功攻克世界难题“360工程”!

欧美彻底傻眼!中国北重耗时三年,成功攻克世界难题“360工程”!

趣文说娱
2025-11-14 15:39:41
黄希扬:向余望在国奥遭受巨大质疑,归队后每个人都在鼓励他

黄希扬:向余望在国奥遭受巨大质疑,归队后每个人都在鼓励他

懂球帝
2025-11-17 11:32:22
最应该感谢高市早苗的人是马杜罗,现在美国正对委内瑞拉大兵压境

最应该感谢高市早苗的人是马杜罗,现在美国正对委内瑞拉大兵压境

凌风的世界观
2025-11-17 09:46:08
人均600万到欠400亿,毁掉“天下第一村”的不是别人,是他们自己

人均600万到欠400亿,毁掉“天下第一村”的不是别人,是他们自己

一家说
2025-05-23 15:05:58
2025-11-17 14:47:00
wisemodel开源社区 incentive-icons
wisemodel开源社区
始智AI wisemodel.cn开源社区,打造中国版“huggingface”
403文章数 13关注度
往期回顾 全部

科技要闻

营销话术反噬信任,雷军不该只是一怒了之

头条要闻

媒体:中国开会研究"琉球学" 必须重视这门绝学了

头条要闻

媒体:中国开会研究"琉球学" 必须重视这门绝学了

体育要闻

当家球星受伤后,球迷乐翻了天?

娱乐要闻

二次封后的宋佳凭什么狂妄?

财经要闻

疯狂的"吸金村":村民大肆盗采地下水

汽车要闻

荣威M7+豆包大模型 用车机AI策划说车视频怎么样?

态度原创

手机
数码
教育
公开课
军事航空

手机要闻

余承东换上华为Mate 80 Pro Max!首发麒麟9030+20GB内存

数码要闻

微星推出中端-入门级背插主板PRO B840M-P EVO WIFI6E PZ

教育要闻

放飞气球于天际,驱散“笑气”于青春

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

安理会将表决加沙问题草案 美以在关键问题上有分歧

无障碍浏览 进入关怀版