网易首页 > 网易号 > 正文 申请入驻

大模型 OCR 的黄金时代,腾讯开源混元OCR,文档解析、视觉问答和翻译方面达到 SOTA

0
分享至



大家好,我是 Ai 学习的老章

大模型 OCR 的黄金时代来了,小红书 dots.ocr-3b、deepseek-ocr-3b、阿里 qwen3-vl-2b、百度 paddleocr-vl-0.9B......

模型越做越小,精度越来越高

刚刚,OCR 领域迎来新选手,腾讯的文档理解模型——混元 OCR 开源了


端到端训推一体:不同于其他开源的 OCR 专家模型或系统,HunyuanOCR 模型的训练和推理均采用全端到端范式。通过规模化的高质量应用导向数据,结合在线强化学习,模型表现出了非常稳健的端到端推理能力,有效规避了级联方案常见的相关误差累积问题


  • 在文档解析、视觉问答和翻译方面达到 SOTA

  • 1B 参数,端到端运行,大幅降低了部署成本

在 OCR Bench 数据集上实现了 3B 参数以下模型的 SOTA 分数(860),并在复杂文档解析的 OmniDocBench 数据集上取得了领先的 94.1 分

一个很离谱的成绩是 HunyuanOCR 仅使用 1B 参数量,在拍照翻译任务上取得了与 Qwen3-VL-235B 相当的效果。

它可以处理街道视图、手写体、艺术文本的文字识别,复杂文档处理(HTML/LaTeX 中的表格/公式),视频字幕提取,以及端到端的照片翻译(支持 14 种语言)


放几个高清的案例







最后这个案例,后面做论文翻译,又有新玩法了

官方提供了不同任务下的提示词模板


任务提示词

检测与识别

检测并识别图片中的文字,将文本坐标格式化输出

解析

• 识别图片中的公式,用 LaTeX 格式表示
• 把图中的表格解析为 HTML
• 解析图中的图表,对于流程图使用 Mermaid 格式表示,其他图表使用 Markdown 格式表示。
• 提取文档图片中正文的所有信息用 markdown 格式表示,其中页眉、页脚部分忽略,表格用 html 格式表达,文档中公式用 latex 格式表示,按照阅读顺序组织进行解析

信息抽取

• 输出 Key 的值
• 提取图片中的:['key1','key2', ...] 的字段内容,并按照 JSON 格式返回
• 提取图片中的字幕

翻译

先提取文字,再将文字内容翻译为英文。若是文档,则其中页眉、页脚忽略。公式用 latex 格式表示,表格用 html 格式表示


在线体验

https://huggingface.co/spaces/tencent/HunyuanOCR


我试了一下,拍照图片 + 双排显示 + 公式、图表情况下,识别的蛮精准的


看前端样式是用 Gradio 实现的,如果模型本地化部署了的话,可以直接把代码 copy 下来,python 运行就能在本机实现这个应用了

代码:https://huggingface.co/spaces/tencent/HunyuanOCR/blob/main/app.py

功能上挺齐全的:多场景文字检测与识别、多粒度文档解析、卡证票据识别和结构化输出、视觉问答、跨语言翻译


本地部署

模型文件只有 2GB,比 DeepSeek-OCR 的 6.7GB 小太多了

不过我看 HunyuanOCR@GitHub 的 README 中写需要 GPU 显存是 80GB,有点离谱啊

它会不会把显存和硬盘容量搞反了❓


国内镜像:https://modelscope.cn/models/deepseek-ai/DeepSeek-OCR


https://huggingface.co/tencent/HunyuanOCR

官方建议 vLLM 部署模型以获取更好的推理性能和精度,因为 Transformers 相比 vLLM 框架存在一定的性能下滑

但是目前只能安装 vLLM nightly 了,稳定版的 vLLM 要支持 HunyuanOCR 估计需要 v0.11.3 了

pip install vllm --extra-index-url https://wheels.vllm.ai/nightly

在线推理

vllm serve tencent/HunyuanOCR \
--no-enable-prefix-caching \
--mm-processor-cache-gb 0

OpenAI API 接口调用

from openai import OpenAI

client = OpenAI(
api_key="EMPTY",
base_url="http://localhost:8000/v1",
timeout=3600
)

messages = [
{
"role": "user",
"content": [
{
"type": "image_url",
"image_url": {
"url": "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/chat-ui/tools-dark.png"
}
},
{
"type": "text",
"text": (
"Extract all information from the main body of the document image "
"and represent it in markdown format, ignoring headers and footers."
"Tables should be expressed in HTML format, formulas in the document "
"should be represented using LaTeX format, and the parsing should be "
"organized according to the reading order."
)
}
]
}
]

response = client.chat.completions.create(
model="tencent/HunyuanOCR",
messages=messages,
temperature=0.0,
)
print(f"Generated text: {response.choices[0].message.content}")

我实测的话,模型已下载,准备等 vLLM:v0.11.3 出来之后了


参考:
官方简介:https://hunyuan.tencent.com/vision/zh?tabIndex=0
HunyuanOCR 项目 README:https://huggingface.co/tencent/HunyuanOCR
vLLM 官方文档:https://docs.vllm.ai/projects/recipes/en/latest/Tencent-Hunyuan/HunyuanOCR.html

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
江苏8死2伤烟花爆燃1分钟视频流出:大量隐情披露,责任人被控制

江苏8死2伤烟花爆燃1分钟视频流出:大量隐情披露,责任人被控制

博士观察
2026-02-16 13:20:56
别被马斯克忽悠了!星链撑不起人类通讯,中国通信基建才是底气

别被马斯克忽悠了!星链撑不起人类通讯,中国通信基建才是底气

像梦一场a
2026-02-13 20:20:26
世预赛大名单提前曝光,广东三将无人入选,上海北京成最大赢家

世预赛大名单提前曝光,广东三将无人入选,上海北京成最大赢家

宏远小师哥
2026-02-15 12:37:12
奥巴马:“外星人确实存在,但……”

奥巴马:“外星人确实存在,但……”

环球时报国际
2026-02-15 22:35:39
河南小伙在非洲16年,当地一夫多妻制,男人只用玩,女人挣钱养家

河南小伙在非洲16年,当地一夫多妻制,男人只用玩,女人挣钱养家

大鱼简科
2026-02-07 16:50:52
女子徒步3000公里从哈密至洛阳发现怀孕并当天产子,最新发声:本来是去医院看感冒,从得知怀孕到生产仅10小时

女子徒步3000公里从哈密至洛阳发现怀孕并当天产子,最新发声:本来是去医院看感冒,从得知怀孕到生产仅10小时

大象新闻
2026-02-15 23:43:07
克里米亚大桥被迫关闭!乌克兰大规模攻击索契等地!

克里米亚大桥被迫关闭!乌克兰大规模攻击索契等地!

项鹏飞
2026-02-15 19:20:00
唐山两地暂停对外开放!

唐山两地暂停对外开放!

唐山你好
2026-02-16 00:03:57
美国学者:如果不是毛主席当年那个决定,中国早已重蹈苏联覆辙

美国学者:如果不是毛主席当年那个决定,中国早已重蹈苏联覆辙

孔孔说体育
2026-01-08 13:47:58
损失数千万终破局,全红婵离队后首签代言让周继红沉默了

损失数千万终破局,全红婵离队后首签代言让周继红沉默了

卿子书
2026-02-16 12:43:28
大舅每次来我家都空手,却带走一车东西,今年我换门锁扔了钥匙!

大舅每次来我家都空手,却带走一车东西,今年我换门锁扔了钥匙!

阿天爱旅行
2026-02-13 21:55:41
新研究发现:40至50岁人生“最吃力”的10年,只是成为朝气蓬勃老年人的开端

新研究发现:40至50岁人生“最吃力”的10年,只是成为朝气蓬勃老年人的开端

红星新闻
2026-02-14 17:24:14
“00后”陈某某被押赴刑场 执行死刑

“00后”陈某某被押赴刑场 执行死刑

闪电新闻
2026-02-07 16:53:35
米兰冬奥会冰壶男子团体赛:中国3-6不敌意大利,遭遇五连败

米兰冬奥会冰壶男子团体赛:中国3-6不敌意大利,遭遇五连败

懂球帝
2026-02-16 06:31:05
险胜!爱德华兹MVP仅差一票被横扫?揭秘投票背后的数字故事

险胜!爱德华兹MVP仅差一票被横扫?揭秘投票背后的数字故事

大眼瞄世界
2026-02-16 10:44:11
倒在黎明前的生鲜鼻祖,反被700万人封神

倒在黎明前的生鲜鼻祖,反被700万人封神

金错刀
2026-02-14 17:18:33
“戏混子”没走,比资本家丑孩子更可怕的是“星二代”开始世袭了

“戏混子”没走,比资本家丑孩子更可怕的是“星二代”开始世袭了

流史岁月
2026-01-26 10:58:30
朱元璋一无所有,为什么万人追随?揭秘他收服人心的三大秘诀

朱元璋一无所有,为什么万人追随?揭秘他收服人心的三大秘诀

千秋文化
2026-02-09 17:53:18
港股收盘,AI应用概念大涨

港股收盘,AI应用概念大涨

第一财经资讯
2026-02-16 12:39:43
辛芷董的嘴型被网友扒出,她对倪妮只说了“换了”两个字

辛芷董的嘴型被网友扒出,她对倪妮只说了“换了”两个字

一盅情怀
2026-02-15 20:09:05
2026-02-16 13:59:00
机器学习与Python社区 incentive-icons
机器学习与Python社区
机器学习算法与Python
3248文章数 11086关注度
往期回顾 全部

科技要闻

OpenAI拿下OpenClaw之父 承诺开源绝不动摇

头条要闻

牛弹琴:被王毅痛斥后 日本急了

头条要闻

牛弹琴:被王毅痛斥后 日本急了

体育要闻

遭针对?谷爱凌炮轰国际雪联安排

娱乐要闻

好甜蜜!郭富城随方媛回安徽过年

财经要闻

2025,中国商业十大意外,黄金只排第九

汽车要闻

叫停纯屏操作 工信部拟推车内实体操作件强制国标

态度原创

亲子
游戏
家居
房产
数码

亲子要闻

科普|孩子支气管哮喘急性发作,如何护理急救

黑神话冯骥又上央视了!这次与超强AI有关

家居要闻

中古雅韵 乐韵伴日常

房产要闻

三亚新机场,又传出新消息!

数码要闻

消息称苹果平价版MacBook不采用塑料外壳,有望3月上市

无障碍浏览 进入关怀版