MonkeyOCR开启“文档理解”范式革命，笔记本也能本地部署|git|python|深度思考按钮|windows|install

MonkeyOCR开启“文档理解”范式革命，笔记本也能本地部署

分享至

始智AI wisemodel.cn社区是源自中国的中立开放的AI开源社区。正在，欢迎加入共同成长。

还在为扫描版PDF、复杂的公式、海量的表格而烦恼吗？还在为昂贵的云服务、不稳定的网络连接而头疼吗？新版本MonkeyOCR-pro-1.2B不仅功能强大，更能轻松部署在你的笔记本电脑上，让你随时随地拥有一个私人文档处理专家！经过实际测试，它能够在个人电脑（Windows 系统、4060 GPU、8GB 显存）上成功部署。

不同于传统的OCR工具，MonkeyOCR构建了Structure-Recognition-Relation三元组解析范式，简化了模块化方案复杂的多工具流程，同时避免了处理整页文档时使用多模态大模型所带来的低效问题，能够较为精准地解析文档中的文本、公式、表格等多种元素，并理解它们之间的逻辑关系，最终生成Markdown格式文件。无论是科研论文、财务报表，还是书籍笔记，MonkeyOCR都有较强的处理能力。MonkeyOCR-pro-1.2B模型已上线始智AI-wisemodel开源社区，欢迎大家前去体验。

模型地址

https://wisemodel.cn/models/yuluoyun/MonkeyOCR-pro-1.2B

01.

核心优势

更强悍的性能

在衡量文档解析能力的综合评估基准OmniDocBench上，MonkeyOCR-pro-3B在中文和英文文档上均取得了最佳的综合性能，甚至超越了GPT-4o、Gemini 2.5-Pro、Qwen2.5VL-72B等闭源或超大模型。轻量化版本MonkeyOCR-pro-1.2B，在中文文档上的表现甚至超过初始3B版本MonkeyOCR-3B 7.4%。

在olmOCR-Bench上，MonkeyOCR-pro-1.2B的表现比Nanonets-OCR-3B高出7.3%。在OmniDocBench上MonkeyOCR-pro-1.2B中英文综合性能平均超过OCRFlux-3B 5%。

更快的速度

轻量化版本MonkeyOCR-pro-1.2B 相较于 MonkeyOCR-pro-3B，在性能仅下降约 1.6% 的情况下，推理速度提升了约 36%。

推理速度 (页/秒) - 不同GPU与PDF页数

VLM OCR 速度 (页/秒) - 不同GPU与PDF页数

02.

使用方法和本地部署

这里详细说明Linux系统和Windows原生的部署方案。

Linux系统

1、创建Conda环境

conda create -n MonkeyOCR python=3.10
conda activate MonkeyOCR

2、克隆仓库

git clone https://github.com/Yuliang-Liu/MonkeyOCR.git
cd MonkeyOCR

3、安装pytorch、MonkeyOCR以及各种必需包

exportCUDA_VERSION=126# for CUDA 12.6
# export CUDA_VERSION=118 # for CUDA 11.8
pip install paddlepaddle-gpu==3.0.0 -i https://www.paddlepaddle.org.cn/packages/stable/cu${CUDA_VERSION}/
pip install "paddlex[base]"

pip install torch==2.6.0 torchvision==0.21.0 torchaudio==2.6.0 --index-url https://download.pytorch.org/whl/cu${CUDA_VERSION}
pip install -e . 
# CUDA 12.6
pip install lmdeploy==0.8.0
# CUDA 11.8
pip install https://github.com/InternLM/lmdeploy/releases/download/v0.8.0/lmdeploy-0.8.0+cu118-cp310-cp310-manylinux2014_x86_64.whl --extra-index-url https://download.pytorch.org/whl/cu118

4、从wisemodel中下载模型权重

git clone https://www.wisemodel.cn/yuluoyun/MonkeyOCR-pro-1.2B.git

5、运行解析

python parse.py

是你要解析的文件路径

6、如果出现triton.runtime.errors.OutOfResources: out of resource: shared memory这种类型的报错，运行

python tools/lmdeploy_patcher.py patch

可解决

7、Gradio Demo

 python demo/demo_gradio.py

一旦演示程序运行起来，您可以通过 http://localhost:7860 访问它。

原生Windows

1、创建Conda环境

conda create -n MonkeyOCR python=3.10
conda activate MonkeyOCR

2、克隆仓库

git clone https://github.com/Yuliang-Liu/MonkeyOCR.git
cd MonkeyOCR

3、安装pytorch、MonkeyOCR以及各种必需包

exportCUDA_VERSION=126# for CUDA 12.6
# export CUDA_VERSION=118 # for CUDA 11.8

pip install paddlepaddle-gpu==3.0.0 -i https://www.paddlepaddle.org.cn/packages/stable/cu${CUDA_VERSION}/
pip install "paddlex[base]"

pip install torch==2.6.0 torchvision==0.21.0 torchaudio==2.6.0 --index-url https://download.pytorch.org/whl/cu${CUDA_VERSION}
pip install -e .

# CUDA 12.6
pip install lmdeploy==0.8.0
# CUDA 11.8
# pip install https://github.com/InternLM/lmdeploy/releases/download/v0.8.0/lmdeploy-0.8.0+cu118-cp310-cp310-manylinux2014_x86_64.whl --extra-index-url https://download.pytorch.org/whl/cu118

在Windows系统中，triton没有原生支持，因此需要下载适配Windows的版本

pip install -U "triton-windows<3.4"

4、从wisemodel中下载模型权重

git clone https://www.wisemodel.cn/yuluoyun/MonkeyOCR-pro-1.2B.git

5、运行解析

python parse.py

是你要解析的文件路径

6、如果出现triton.runtime.errors.OutOfResources: out of resource: shared memory这种类型的报错，运行

python tools/lmdeploy_patcher.py patch

可解决

7、Gradio Demo

python demo/demo_gradio.py

一旦演示程序运行起来，您可以通过 http://localhost:7860 访问它。

在Windows系统中，MonkeyOCR项目还提供了WSL2 + Docker的方案，为了适配更多电脑，项目也配有模型量化教程。

03.

效果展示

数学公式：

表格：

报纸：

财报：

04.

性能对比

1. OmniDocBench上不同任务的性能对比

2. OmniDocBench上不同文档类型的性能对比

3. olmOCR-bench的评测结果

编辑丨赵雅鑫

----- END -----

wisemodel相关：

中立开放AI开源生态

系列模型：

关于wisemodel更多

欢迎持续关注和支持

开源社区建设需要长期坚持和投入，更需要广大用户的积极参与、贡献和维护，欢迎大家加入wisemodel开源社区的志愿者计划和开源共创计划。期待更多开发者将开源成果，包括模型、数据集和代码等发布到 wisemodel.cn 社区，共建中立、开放的AI开源社区生态。欢迎扫码添加wisemodel微信，申请加入wisemodel社群，持续关注wisemodel.cn开源社区动态。

欢迎加盟wisemodel开源社区

始智AI wisemodel社区自2023年9月上线以来，逐渐成为影响力日益扩大的中立开放的AI开源社区，为了加快公司发展，我们长期需要技术、运营等人才加盟，技术侧重在AI infra、后端开发，熟悉K8S、模型训练和推理等技术，以及熟悉开发者生态运营的成员，欢迎感兴趣的朋友加盟，可以通过添加wisemodel微信，或者将简历投递到邮箱：liudaoquan@wisemodel.cn

欢迎投稿优质内容

欢迎投稿分享人工智能领域相关的优秀研究成果，鼓励高校实验室、大企业研究团队、个人等，在wisemodel平台上分享各类优质内容，可以是AI领域最新论文解读、最新开源成果介绍，也可以是关于AI技术实践、应用和总结等。投稿可以发邮件到liudaoquan@wisemodel.cn，也可以扫码添加wisemodel微信。

关于wisemodel开源社区

始智AI wisemodel.cn开源社区由清华校友总会AI大数据专委会副秘书长刘道全创立，旨在打造和建设中立开放的AI开源创新社区，将打造成“HuggingFace”之外最活跃的AI开源社区，汇聚主要AI开源模型、数据集和代码等，欢迎高校科研院所、大型互联网公司、创新创业企业、广大个人开发者，以及政府部门、学会协会、联盟、基金会等，还有投资机构、科技媒体等，共同参与建设AI开源创新生态。

向上滑动查看

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.