始智AI wisemodel.cn社区是源自中国的中立开放的AI开源社区。正在,欢迎加入共同成长。
还在为扫描版PDF、复杂的公式、海量的表格而烦恼吗?还在为昂贵的云服务、不稳定的网络连接而头疼吗?新版本MonkeyOCR-pro-1.2B不仅功能强大,更能轻松部署在你的笔记本电脑上,让你随时随地拥有一个私人文档处理专家!经过实际测试,它能够在个人电脑(Windows 系统、4060 GPU、8GB 显存)上成功部署。
不同于传统的OCR工具,MonkeyOCR构建了Structure-Recognition-Relation三元组解析范式,简化了模块化方案复杂的多工具流程,同时避免了处理整页文档时使用多模态大模型所带来的低效问题,能够较为精准地解析文档中的文本、公式、表格等多种元素,并理解它们之间的逻辑关系,最终生成Markdown格式文件。无论是科研论文、财务报表,还是书籍笔记,MonkeyOCR都有较强的处理能力。MonkeyOCR-pro-1.2B模型已上线始智AI-wisemodel开源社区,欢迎大家前去体验。
模型地址
https://wisemodel.cn/models/yuluoyun/MonkeyOCR-pro-1.2B
01.
核心优势

更强悍的性能
在衡量文档解析能力的综合评估基准OmniDocBench上,MonkeyOCR-pro-3B在中文和英文文档上均取得了最佳的综合性能,甚至超越了GPT-4o、Gemini 2.5-Pro、Qwen2.5VL-72B等闭源或超大模型。轻量化版本MonkeyOCR-pro-1.2B,在中文文档上的表现甚至超过初始3B版本MonkeyOCR-3B 7.4%。
在olmOCR-Bench上,MonkeyOCR-pro-1.2B的表现比Nanonets-OCR-3B高出7.3%。在OmniDocBench上MonkeyOCR-pro-1.2B中英文综合性能平均超过OCRFlux-3B 5%。

更快的速度
轻量化版本MonkeyOCR-pro-1.2B 相较于 MonkeyOCR-pro-3B,在性能仅下降约 1.6% 的情况下,推理速度提升了约 36%。
推理速度 (页/秒) - 不同GPU与PDF页数
VLM OCR 速度 (页/秒) - 不同GPU与PDF页数
02.
使用方法和本地部署
这里详细说明Linux系统和Windows原生的部署方案。

Linux系统
1、创建Conda环境
conda create -n MonkeyOCR python=3.10
conda activate MonkeyOCR2、克隆仓库
git clone https://github.com/Yuliang-Liu/MonkeyOCR.git
cd MonkeyOCR3、安装pytorch、MonkeyOCR以及各种必需包
exportCUDA_VERSION=126# for CUDA 12.6
# export CUDA_VERSION=118 # for CUDA 11.8
pip install paddlepaddle-gpu==3.0.0 -i https://www.paddlepaddle.org.cn/packages/stable/cu${CUDA_VERSION}/
pip install "paddlex[base]"pip install torch==2.6.0 torchvision==0.21.0 torchaudio==2.6.0 --index-url https://download.pytorch.org/whl/cu${CUDA_VERSION}
pip install -e .
# CUDA 12.6
pip install lmdeploy==0.8.0
# CUDA 11.8
pip install https://github.com/InternLM/lmdeploy/releases/download/v0.8.0/lmdeploy-0.8.0+cu118-cp310-cp310-manylinux2014_x86_64.whl --extra-index-url https://download.pytorch.org/whl/cu1184、从wisemodel中下载模型权重
git clone https://www.wisemodel.cn/yuluoyun/MonkeyOCR-pro-1.2B.git5、运行解析
python parse.py
是你要解析的文件路径
6、如果出现triton.runtime.errors.OutOfResources: out of resource: shared memory这种类型的报错,运行
python tools/lmdeploy_patcher.py patch可解决
7、Gradio Demo
python demo/demo_gradio.py一旦演示程序运行起来,您可以通过 http://localhost:7860 访问它。
原生Windows
1、创建Conda环境
conda create -n MonkeyOCR python=3.10
conda activate MonkeyOCR2、克隆仓库
git clone https://github.com/Yuliang-Liu/MonkeyOCR.git
cd MonkeyOCR3、安装pytorch、MonkeyOCR以及各种必需包
exportCUDA_VERSION=126# for CUDA 12.6
# export CUDA_VERSION=118 # for CUDA 11.8
pip install paddlepaddle-gpu==3.0.0 -i https://www.paddlepaddle.org.cn/packages/stable/cu${CUDA_VERSION}/
pip install "paddlex[base]"
pip install torch==2.6.0 torchvision==0.21.0 torchaudio==2.6.0 --index-url https://download.pytorch.org/whl/cu${CUDA_VERSION}
pip install -e .
# CUDA 12.6
pip install lmdeploy==0.8.0
# CUDA 11.8
# pip install https://github.com/InternLM/lmdeploy/releases/download/v0.8.0/lmdeploy-0.8.0+cu118-cp310-cp310-manylinux2014_x86_64.whl --extra-index-url https://download.pytorch.org/whl/cu118
在Windows系统中,triton没有原生支持,因此需要下载适配Windows的版本
pip install -U "triton-windows<3.4"
4、从wisemodel中下载模型权重
git clone https://www.wisemodel.cn/yuluoyun/MonkeyOCR-pro-1.2B.git5、运行解析
python parse.py
是你要解析的文件路径
6、如果出现triton.runtime.errors.OutOfResources: out of resource: shared memory这种类型的报错,运行
python tools/lmdeploy_patcher.py patch可解决
7、Gradio Demo
python demo/demo_gradio.py一旦演示程序运行起来,您可以通过 http://localhost:7860 访问它。
在Windows系统中,MonkeyOCR项目还提供了WSL2 + Docker的方案,为了适配更多电脑,项目也配有模型量化教程。
03.
效果展示
数学公式:
表格:
报纸:
财报:
04.
性能对比
1. OmniDocBench上不同任务的性能对比
2. OmniDocBench上不同文档类型的性能对比
3. olmOCR-bench的评测结果
编辑丨赵雅鑫
----- END -----
wisemodel相关:
中立开放AI开源生态
系列模型:
关于wisemodel更多
1
欢迎持续关注和支持
开源社区建设需要长期坚持和投入,更需要广大用户的积极参与、贡献和维护,欢迎大家加入wisemodel开源社区的志愿者计划和开源共创计划。期待更多开发者将开源成果,包括模型、数据集和代码等发布到 wisemodel.cn 社区,共建中立、开放的AI开源社区生态。欢迎扫码添加wisemodel微信,申请加入wisemodel社群,持续关注wisemodel.cn开源社区动态。
2
欢迎加盟wisemodel开源社区
始智AI wisemodel社区自2023年9月上线以来,逐渐成为影响力日益扩大的中立开放的AI开源社区,为了加快公司发展,我们长期需要技术、运营等人才加盟,技术侧重在AI infra、后端开发,熟悉K8S、模型训练和推理等技术, 以及熟悉开发者生态运营的成员,欢迎感兴趣的朋友加盟,可以通过添加wisemodel微信,或者将简历投递到邮箱:liudaoquan@wisemodel.cn
3
欢迎投稿优质内容
欢迎投稿分享人工智能领域相关的优秀研究成果,鼓励高校实验室、大企业研究团队、个人等,在wisemodel平台上分享各类优质内容,可以是AI领域最新论文解读、最新开源成果介绍,也可以是关于AI技术实践、应用和总结等。投稿可以发邮件到liudaoquan@wisemodel.cn,也可以扫码添加wisemodel微信。
4
关于wisemodel开源社区
始智AI wisemodel.cn开源社区由清华校友总会AI大数据专委会副秘书长刘道全创立,旨在打造和建设中立开放的AI开源创新社区,将打造成“HuggingFace”之外最活跃的AI开源社区,汇聚主要AI开源模型、数据集和代码等,欢迎高校科研院所、大型互联网公司、创新创业企业、广大个人开发者,以及政府部门、学会协会、联盟、基金会等,还有投资机构、科技媒体等,共同参与建设AI开源创新生态。
向上滑动查看
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.