网易首页 > 网易号 > 正文 申请入驻

MonkeyOCR开启“文档理解”范式革命,笔记本也能本地部署

0
分享至

始智AI wisemodel.cn社区是源自中国的中立开放的AI开源社区。正在,欢迎加入共同成长。

还在为扫描版PDF、复杂的公式、海量的表格而烦恼吗?还在为昂贵的云服务、不稳定的网络连接而头疼吗?新版本MonkeyOCR-pro-1.2B不仅功能强大,更能轻松部署在你的笔记本电脑上,让你随时随地拥有一个私人文档处理专家!经过实际测试,它能够在个人电脑(Windows 系统、4060 GPU、8GB 显存)上成功部署。

不同于传统的OCR工具,MonkeyOCR构建了Structure-Recognition-Relation三元组解析范式,简化了模块化方案复杂的多工具流程,同时避免了处理整页文档时使用多模态大模型所带来的低效问题,能够较为精准地解析文档中的文本、公式、表格等多种元素,并理解它们之间的逻辑关系,最终生成Markdown格式文件。无论是科研论文、财务报表,还是书籍笔记,MonkeyOCR都有较强的处理能力。MonkeyOCR-pro-1.2B模型已上线始智AI-wisemodel开源社区,欢迎大家前去体验。

模型地址

https://wisemodel.cn/models/yuluoyun/MonkeyOCR-pro-1.2B

01.

核心优势


更强悍的性能

在衡量文档解析能力的综合评估基准OmniDocBench上,MonkeyOCR-pro-3B在中文和英文文档上均取得了最佳的综合性能,甚至超越了GPT-4o、Gemini 2.5-Pro、Qwen2.5VL-72B等闭源或超大模型。轻量化版本MonkeyOCR-pro-1.2B,在中文文档上的表现甚至超过初始3B版本MonkeyOCR-3B 7.4%。

在olmOCR-Bench上,MonkeyOCR-pro-1.2B的表现比Nanonets-OCR-3B高出7.3%。在OmniDocBench上MonkeyOCR-pro-1.2B中英文综合性能平均超过OCRFlux-3B 5%。


更快的速度

轻量化版本MonkeyOCR-pro-1.2B 相较于 MonkeyOCR-pro-3B,在性能仅下降约 1.6% 的情况下,推理速度提升了约 36%。

推理速度 (页/秒) - 不同GPU与PDF页数

VLM OCR 速度 (页/秒) - 不同GPU与PDF页数

02.

使用方法和本地部署

这里详细说明Linux系统和Windows原生的部署方案。


Linux系统

1、创建Conda环境

conda create -n MonkeyOCR python=3.10
conda activate MonkeyOCR

2、克隆仓库

git clone https://github.com/Yuliang-Liu/MonkeyOCR.git
cd MonkeyOCR

3、安装pytorch、MonkeyOCR以及各种必需包

exportCUDA_VERSION=126# for CUDA 12.6
# export CUDA_VERSION=118 # for CUDA 11.8
pip install paddlepaddle-gpu==3.0.0 -i https://www.paddlepaddle.org.cn/packages/stable/cu${CUDA_VERSION}/
pip install "paddlex[base]"

pip install torch==2.6.0 torchvision==0.21.0 torchaudio==2.6.0 --index-url https://download.pytorch.org/whl/cu${CUDA_VERSION}
pip install -e . 
# CUDA 12.6
pip install lmdeploy==0.8.0
# CUDA 11.8
pip install https://github.com/InternLM/lmdeploy/releases/download/v0.8.0/lmdeploy-0.8.0+cu118-cp310-cp310-manylinux2014_x86_64.whl --extra-index-url https://download.pytorch.org/whl/cu118

4、从wisemodel中下载模型权重

git clone https://www.wisemodel.cn/yuluoyun/MonkeyOCR-pro-1.2B.git

5、运行解析

python parse.py 


是你要解析的文件路径

6、如果出现triton.runtime.errors.OutOfResources: out of resource: shared memory这种类型的报错,运行

python tools/lmdeploy_patcher.py patch

可解决

7、Gradio Demo

 python demo/demo_gradio.py

一旦演示程序运行起来,您可以通过 http://localhost:7860 访问它。

原生Windows

1、创建Conda环境

conda create -n MonkeyOCR python=3.10
conda activate MonkeyOCR

2、克隆仓库

git clone https://github.com/Yuliang-Liu/MonkeyOCR.git
cd MonkeyOCR

3、安装pytorch、MonkeyOCR以及各种必需包

exportCUDA_VERSION=126# for CUDA 12.6
# export CUDA_VERSION=118 # for CUDA 11.8

pip install paddlepaddle-gpu==3.0.0 -i https://www.paddlepaddle.org.cn/packages/stable/cu${CUDA_VERSION}/
pip install "paddlex[base]"

pip install torch==2.6.0 torchvision==0.21.0 torchaudio==2.6.0 --index-url https://download.pytorch.org/whl/cu${CUDA_VERSION}
pip install -e .

# CUDA 12.6
pip install lmdeploy==0.8.0
# CUDA 11.8
# pip install https://github.com/InternLM/lmdeploy/releases/download/v0.8.0/lmdeploy-0.8.0+cu118-cp310-cp310-manylinux2014_x86_64.whl --extra-index-url https://download.pytorch.org/whl/cu118

在Windows系统中,triton没有原生支持,因此需要下载适配Windows的版本

pip install -U "triton-windows<3.4"

4、从wisemodel中下载模型权重

git clone https://www.wisemodel.cn/yuluoyun/MonkeyOCR-pro-1.2B.git

5、运行解析

python parse.py 


是你要解析的文件路径

6、如果出现triton.runtime.errors.OutOfResources: out of resource: shared memory这种类型的报错,运行

python tools/lmdeploy_patcher.py patch

可解决

7、Gradio Demo

python demo/demo_gradio.py

一旦演示程序运行起来,您可以通过 http://localhost:7860 访问它。

在Windows系统中,MonkeyOCR项目还提供了WSL2 + Docker的方案,为了适配更多电脑,项目也配有模型量化教程。

03.

效果展示

数学公式:

表格:

报纸:

财报:

04.

性能对比

1. OmniDocBench上不同任务的性能对比

2. OmniDocBench上不同文档类型的性能对比

3. olmOCR-bench的评测结果

编辑丨赵雅鑫

----- END -----

wisemodel相关:

中立开放AI开源生态


系列模型:

关于wisemodel更多

1

欢迎持续关注和支持

开源社区建设需要长期坚持和投入,更需要广大用户的积极参与、贡献和维护,欢迎大家加入wisemodel开源社区的志愿者计划和开源共创计划。期待更多开发者将开源成果,包括模型、数据集和代码等发布到 wisemodel.cn 社区,共建中立、开放的AI开源社区生态。欢迎扫码添加wisemodel微信,申请加入wisemodel社群,持续关注wisemodel.cn开源社区动态。

2

欢迎加盟wisemodel开源社区

始智AI wisemodel社区自2023年9月上线以来,逐渐成为影响力日益扩大的中立开放的AI开源社区,为了加快公司发展,我们长期需要技术、运营等人才加盟,技术侧重在AI infra、后端开发,熟悉K8S、模型训练和推理等技术, 以及熟悉开发者生态运营的成员,欢迎感兴趣的朋友加盟,可以通过添加wisemodel微信,或者将简历投递到邮箱:liudaoquan@wisemodel.cn

3

欢迎投稿优质内容

欢迎投稿分享人工智能领域相关的优秀研究成果,鼓励高校实验室、大企业研究团队、个人等,在wisemodel平台上分享各类优质内容,可以是AI领域最新论文解读、最新开源成果介绍,也可以是关于AI技术实践、应用和总结等。投稿可以发邮件到liudaoquan@wisemodel.cn,也可以扫码添加wisemodel微信。

4

关于wisemodel开源社区

始智AI wisemodel.cn开源社区由清华校友总会AI大数据专委会副秘书长刘道全创立,旨在打造和建设中立开放的AI开源创新社区,将打造成“HuggingFace”之外最活跃的AI开源社区,汇聚主要AI开源模型、数据集和代码等,欢迎高校科研院所、大型互联网公司、创新创业企业、广大个人开发者,以及政府部门、学会协会、联盟、基金会等,还有投资机构、科技媒体等,共同参与建设AI开源创新生态。

向上滑动查看

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
ICE猛于虎,美天气预报不敢说“冰”字!3周射杀2名美国人,零下23℃数万人示威

ICE猛于虎,美天气预报不敢说“冰”字!3周射杀2名美国人,零下23℃数万人示威

红星新闻
2026-01-25 18:23:34
A股:人民日报罕见点名股市!证监会史上最严监管,A股迎史诗大变盘

A股:人民日报罕见点名股市!证监会史上最严监管,A股迎史诗大变盘

股市皆大事
2026-01-26 08:24:31
PS5暴死新游被LGBT群体嘲讽:这就是"反觉醒"的下场

PS5暴死新游被LGBT群体嘲讽:这就是"反觉醒"的下场

游民星空
2026-01-23 13:13:21
64岁刘德华搀扶,75岁谭咏麟唱歌!半个香港娱乐圈给94岁男星祝寿

64岁刘德华搀扶,75岁谭咏麟唱歌!半个香港娱乐圈给94岁男星祝寿

头号电影院
2026-01-24 21:47:10
浙江文投总经理主动投案了。

浙江文投总经理主动投案了。

特特农村生活
2026-01-26 00:28:27
美军“林肯”号航母打击群已抵达印度洋,F-15E战斗机、C-17运输机正在集结!以色列也正伺机攻击;伊朗:已做好应对最坏情况的准备

美军“林肯”号航母打击群已抵达印度洋,F-15E战斗机、C-17运输机正在集结!以色列也正伺机攻击;伊朗:已做好应对最坏情况的准备

每日经济新闻
2026-01-25 00:43:52
这件事,上海男篮就是做不好?

这件事,上海男篮就是做不好?

新民晚报
2026-01-26 09:49:36
广西一精神小妹结婚,身上多处纹身新郎小她10岁,网友:相当炸裂

广西一精神小妹结婚,身上多处纹身新郎小她10岁,网友:相当炸裂

唐小糖说情感
2026-01-07 16:37:28
新郎晒44张婚纱照,仅有6张新娘正脸,其余大半是母亲,女方回应

新郎晒44张婚纱照,仅有6张新娘正脸,其余大半是母亲,女方回应

小涵爱说事
2026-01-23 14:28:54
【马斯克的太空光伏】,国内强关联度的 10 大上市公司

【马斯克的太空光伏】,国内强关联度的 10 大上市公司

飞跑的鹿
2026-01-25 21:30:09
排污许可证遭吊销!上海一三甲医院因硫化物超标6倍被罚

排污许可证遭吊销!上海一三甲医院因硫化物超标6倍被罚

上观新闻
2026-01-25 21:50:14
2026 U23亚洲杯最佳阵容揭晓:中国3人入选,日本成最大赢家

2026 U23亚洲杯最佳阵容揭晓:中国3人入选,日本成最大赢家

行走的知识库
2026-01-25 01:43:38
体育总局表态!安东尼奥接受中国足协重任,李昊赛后频频道歉

体育总局表态!安东尼奥接受中国足协重任,李昊赛后频频道歉

十点街球体育
2026-01-25 21:25:48
徐冬冬尹子维婚礼特制版椰汁曝光,椰汁写着从单身喝到结婚

徐冬冬尹子维婚礼特制版椰汁曝光,椰汁写着从单身喝到结婚

观威海
2026-01-24 11:22:07
62岁退休教师月入8000,与65岁男人登记结婚...

62岁退休教师月入8000,与65岁男人登记结婚...

城事录主
2026-01-23 11:46:58
温格:主场丢3球就很难赢了,这支曼联的表现很有说服力

温格:主场丢3球就很难赢了,这支曼联的表现很有说服力

懂球帝
2026-01-26 02:48:11
龚读纶:中共成都市委原副书记、四川省人民检察院原检察长

龚读纶:中共成都市委原副书记、四川省人民检察院原检察长

爱意随风起呀
2026-01-25 14:56:04
冬思:一种关于温度的潜在语法

冬思:一种关于温度的潜在语法

疾跑的小蜗牛
2026-01-25 18:47:13
游客吐槽买票看灯会,部分区域却设了近2米高挡板,官方客服致歉:有临时演出,宣传工作不到位

游客吐槽买票看灯会,部分区域却设了近2米高挡板,官方客服致歉:有临时演出,宣传工作不到位

极目新闻
2026-01-25 17:45:03
一个都逃不掉!伊朗突获绝密情报,73名美国以色列雇佣军被一锅端

一个都逃不掉!伊朗突获绝密情报,73名美国以色列雇佣军被一锅端

万物知识圈
2026-01-24 08:56:50
2026-01-26 10:36:49
wisemodel开源社区 incentive-icons
wisemodel开源社区
始智AI wisemodel.cn开源社区,打造中国版“huggingface”
446文章数 14关注度
往期回顾 全部

科技要闻

三星闪存,涨价100%

头条要闻

牛弹琴:特朗普非常难过 发文祈祷"中国别接管加拿大"

头条要闻

牛弹琴:特朗普非常难过 发文祈祷"中国别接管加拿大"

体育要闻

中国足球不会一夜变强,但他们已经创造历史

娱乐要闻

央八开播 杨紫胡歌主演的40集大剧来了

财经要闻

现货黄金历史首次突破5000美元

汽车要闻

别克至境E7内饰图曝光 新车将于一季度正式发布

态度原创

本地
时尚
亲子
房产
游戏

本地新闻

云游中国|格尔木的四季朋友圈,张张值得你点赞

伊姐周日热推:电视剧《太平年》;电视剧《暗恋者的救赎》......

亲子要闻

小孩哥:我的天真还是被无鞋打败了!

房产要闻

正式官宣!三亚又一所名校要来了!

为什么在穿越火线里面,马来剑的口碑能好到那个程度?

无障碍浏览 进入关怀版