网易首页 > 网易号 > 正文 申请入驻

LightOnOCR-2-1B发布:千页成本低至7分,OCR新选择!

0
分享至

OCR(光学字符识别)领域这两天迎来了一个极其硬核的“小钢炮”。

长期以来,为了追求极致的 OCR 效果(特别是处理复杂的数学公式、多栏排版和表格),我们往往不得不使用庞大的多模态模型。效果是好了,但推理成本和速度也上去了。

但 LightOnAI 最新发布的一款端到端 OCR 模型LightOnOCR-2-1B彻底打破了这个僵局。



它是 LightOnOCR 系列的旗舰级 OCR 模型,对外宣称其为这个系列的最佳 OCR 模型。

虽只有 1B 参数,却在各项基准测试中,把规模比它大 9 倍的模型按在地上摩擦。每千页的处理成本不到 0.01 美元(约7分钱),速度快到飞起。

它的核心逻辑非常简单粗暴:输入 PDF 或图片,直接输出完美的 Markdown 格式文本。



最离谱的是它的效能比。LightOn 用 1B 的参数量,实现了 SOTA(当前最佳)的效果,在速度和精度上双双碾压了众多高参数量的竞争对手。

核心亮点

1、越级挑战 1B > 9B

在权威的 OlmOCR-Bench 测试中,LightOnOCR-2-1B 拿下了 83.2 ± 0.9 的高分。



这意味着它在处理复杂文档时,表现优于许多参数量是它 9 倍的模型。

特别是在以下场景中表现尤为突出:

  • ArXiv 学术论文:复杂的双栏排版。
  • 数学公式:包含大量公式的旧扫描文档。
  • 表格识别:结构复杂的统计表格。

2、极致速度与低成本

这是工程化落地最看重的指标。在单张 H100 80GB 显卡上(配合 vLLM 推理框架):

  • 吞吐量:达到 5.71 页/秒。
  • 成本:处理 1000 页文档,电费+算力成本不到 0.01 美元。

速度对比:



如果你需要大规模处理企业归档文件或图书数字化,这个速度和成本优势是碾压级的。

3、黑科技加持:RLVR 技术

为什么这么小的模型能这么强?秘密在于 RLVR(基于验证反馈的强化学习)。

LightOnOCR团队在训练中引入了特殊的奖励机制:

  • KaTeX 奖励:专门针对数学公式渲染进行优化,让输出的 LaTeX 代码更规范、可渲染。
  • 压缩奖励机制:惩罚模型的“复读机”行为。让模型的重复率降低了 50% 以上,解决了小模型容易陷入死循环的通病。
主要功能
  • Markdown 结构化输出:它不是吐出一堆乱糟糟的文字,而是带有标题、列表、代码块的整洁 Markdown。
  • 复杂元素处理
    • 表格:能够还原表格结构。
    • 数学公式:完美识别 LaTeX/KaTeX。
    • 多栏布局:自动处理报纸、论文的分栏阅读顺序。
  • 多功能变体:它还有一个 bbox 变体版本,不仅能识别文字,还能预测图片的边界框。这意味着它能告诉你文档里的插图具体在什么位置,方便你做图文对应的切片。
快速入手

官方在抱抱脸平台也部署了可体验的 LightOnOCR-2-1B Space。

Demo:

https://huggingface.co/spaces/lightonai/LightOnOCR-2-1B-Demo



只需上传 PDF 文档或图片即可快速解析。

如果想在 Python 代码中调用,先要安装:

uv pip install git+https://github.com/huggingface/transformersuv pip install pillow pypdfium2

代码示例:

import torchfrom transformers import LightOnOcrForConditionalGeneration, LightOnOcrProcessordevice = "mps" if torch.backends.mps.is_available() else "cuda" if torch.cuda.is_available() else "cpu"dtype = torch.float32 if device == "mps" else torch.bfloat16model = LightOnOcrForConditionalGeneration.from_pretrained("lightonai/LightOnOCR-2-1B", torch_dtype=dtype).to(device)processor = LightOnOcrProcessor.from_pretrained("lightonai/LightOnOCR-2-1B")url = "https://huggingface.co/datasets/hf-internal-testing/fixtures_ocr/resolve/main/SROIE-receipt.jpeg"conversation = [{"role": "user", "content": [{"type": "image", "url": url}]}]inputs = processor.apply_chat_template(conversation,add_generation_prompt=True,tokenize=True,return_dict=True,return_tensors="pt",inputs = {k: v.to(device=device, dtype=dtype) if v.is_floating_point() else v.to(device) for k, v in inputs.items()}output_ids = model.generate(**inputs, max_new_tokens=1024)generated_ids = output_ids[0, inputs["input_ids"].shape[1]:]output_text = processor.decode(generated_ids, skip_special_tokens=True)print(output_text)

与 vLLM 一起使用:

vllm serve lightonai/LightOnOCR-2-1B \--limit-mm-per-prompt '{"image": 1}' --mm-processor-cache-gb 0 --no-enable-prefix-caching

代码示例:

import base64import requestsimport pypdfium2 as pdfiumimport ioENDPOINT = "http://localhost:8000/v1/chat/completions"MODEL = "lightonai/LightOnOCR-2-1B"# Download PDF from arXivpdf_url = "https://arxiv.org/pdf/2412.13663"pdf_data = requests.get(pdf_url).content# Open PDF and convert first page to imagepdf = pdfium.PdfDocument(pdf_data)page = pdf[0]# Render at 200 DPI (scale factor = 200/72 ≈ 2.77)pil_image = page.render(scale=2.77).to_pil()# Convert to base64buffer = io.BytesIO()pil_image.save(buffer, format="PNG")image_base64 = base64.b64encode(buffer.getvalue()).decode('utf-8')# Make requestpayload = {"model": MODEL,"messages": [{"role": "user","content": [{"type": "image_url","image_url": {"url": f"data:image/png;base64,{image_base64}"}}],"max_tokens": 4096,"temperature": 0.2,"top_p": 0.9,response = requests.post(ENDPOINT, json=payload)text = response.json()['choices'][0]['message']['content']print(text)
使用技巧: 将 PDF 文件渲染为PNG或JPEG格式,目标最长边为1540 像素。 保持宽高比以保持文本几何形状 每页使用一张图;vLLM 支持批量处理
应用场景
  • 学术论文/arXiv 文献数字化
  • 老档案、扫描书籍 OCR
  • 企业文档中台/RAG 数据清洗
  • 数学、工程、科研知识库构建
  • 财务票据、复杂报表结构化

LightOnOCR-2-1B 是开源 OCR 领域的一个重要里程碑。

它证明了在特定领域任务上,通过高质量的数据清洗和先进的强化学习技术,小模型完全可以战胜大模型。

如果你在做文档理解、知识库、RAG、AI 助教、科研工具,那必须关注这个 OCR 模型。

模型(Hugging Face):

https://huggingface.co/lightonai/LightOnOCR-2-1B

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
Stein:巴特勒赛季报销后,勇士多半会想办法交易维金斯

Stein:巴特勒赛季报销后,勇士多半会想办法交易维金斯

移动挡拆
2026-01-24 07:01:58
最新研究:烹饪3天,可引发肺炎,持续7天重创肠道;助推癌症和心血管疾病,但这些方法可缓解

最新研究:烹饪3天,可引发肺炎,持续7天重创肠道;助推癌症和心血管疾病,但这些方法可缓解

肿瘤医学论坛
2026-01-22 18:54:02
不忍直视!贾静雯现身成都,满脸沧桑,看上去很疲惫,嘴都歪了

不忍直视!贾静雯现身成都,满脸沧桑,看上去很疲惫,嘴都歪了

乐悠悠娱乐
2026-01-24 12:24:00
青木率99%,高市早苗乐得连喊3声“万岁”,麻生:中方不足畏惧

青木率99%,高市早苗乐得连喊3声“万岁”,麻生:中方不足畏惧

现代小青青慕慕
2026-01-24 08:58:01
特斯拉正式停用自动驾驶功能,以推动FSD普及

特斯拉正式停用自动驾驶功能,以推动FSD普及

财闻
2026-01-23 21:32:08
伊朗神权崩塌前夜:9000万高知青年与内战危机

伊朗神权崩塌前夜:9000万高知青年与内战危机

夏至陌离殇
2026-01-14 15:34:27
一支笔锁死中国14亿人命运:为何90年过去了,这条斜线谁也动不了

一支笔锁死中国14亿人命运:为何90年过去了,这条斜线谁也动不了

半解智士
2026-01-20 18:03:00
外媒:因民调结果不佳,特朗普宣布将起诉《纽约时报》

外媒:因民调结果不佳,特朗普宣布将起诉《纽约时报》

参考消息
2026-01-23 15:07:49
410次开房记录流出:央企“女老虎”陶荔芳,背后还有多少同伙

410次开房记录流出:央企“女老虎”陶荔芳,背后还有多少同伙

深度报
2025-12-14 22:36:54
上千艘中国船集结!长达467公里,日右翼恍然大悟,石破茂是对的

上千艘中国船集结!长达467公里,日右翼恍然大悟,石破茂是对的

boss外传
2026-01-23 20:00:03
汽车圈“大地震”!比亚迪大将投奔行业巨头,叫嚣:三年内没对手

汽车圈“大地震”!比亚迪大将投奔行业巨头,叫嚣:三年内没对手

长星寄明月
2026-01-20 21:00:46
撕破脸!普京喊话特朗普:拿下格陵兰,我帮你!欧洲盟友集体破防

撕破脸!普京喊话特朗普:拿下格陵兰,我帮你!欧洲盟友集体破防

兴史兴谈
2026-01-23 14:02:48
央视怒批,人民日报点名封杀,这5位目无法纪的大网红,彻底凉凉

央视怒批,人民日报点名封杀,这5位目无法纪的大网红,彻底凉凉

一娱三分地
2025-12-04 17:00:33
退出春晚、解散公司,43岁贾玲近况曝光引人担忧,令人唏嘘

退出春晚、解散公司,43岁贾玲近况曝光引人担忧,令人唏嘘

神秘的未知领域
2026-01-24 20:18:45
31岁中国女留学生刚到英国三天,时差还没倒过来,就和人发生关系

31岁中国女留学生刚到英国三天,时差还没倒过来,就和人发生关系

百态人间
2026-01-18 05:30:04
这居然是全红婵?18岁登上国际杂志封面,长发化妆太惊艳了,多张罕见照片曝光,原来大家都低估她了

这居然是全红婵?18岁登上国际杂志封面,长发化妆太惊艳了,多张罕见照片曝光,原来大家都低估她了

二胡的岁月如歌
2025-12-27 18:01:39
再见了,沈腾,再见了,贾玲,2026年春晚“新小品演员”来势汹汹

再见了,沈腾,再见了,贾玲,2026年春晚“新小品演员”来势汹汹

真的八卦小学弟
2026-01-24 19:00:06
卖维尼修斯或贝林,TA:皇马内部有人认为球队需要激进的重建

卖维尼修斯或贝林,TA:皇马内部有人认为球队需要激进的重建

懂球帝
2026-01-24 19:03:13
10亿美元、1269万盎司白银,这个男人提前一年押注贵金属赚翻了!

10亿美元、1269万盎司白银,这个男人提前一年押注贵金属赚翻了!

华尔街见闻官方
2026-01-24 16:03:45
热点丨交易所出手:调整涨跌停板!

热点丨交易所出手:调整涨跌停板!

钱眼
2026-01-24 19:05:00
2026-01-24 20:52:49
侃故事的阿庆
侃故事的阿庆
几分钟看完一部影视剧,诙谐幽默的娓娓道来
265文章数 7458关注度
往期回顾 全部

科技要闻

特斯拉Cybercrab即将落地 每公里不到1块钱

头条要闻

安徽女教师校内宿舍病亡2天后才被发现 学校:建议起诉

头条要闻

安徽女教师校内宿舍病亡2天后才被发现 学校:建议起诉

体育要闻

当家球星打替补,他们在故意摆烂?

娱乐要闻

回归还是顶流 凤凰传奇将现身马年春晚

财经要闻

“百年老字号”张小泉遭60亿债务压顶

汽车要闻

有增程和纯电版可选 日产NX8或于3-4月间上市

态度原创

房产
游戏
家居
数码
军事航空

房产要闻

正式官宣!三亚又一所名校要来了!

踢球还能爆衣?这款足球新游还是太懂玩家了

家居要闻

在家度假 160平南洋混搭宅

数码要闻

技嘉推出镜面WOLED显示器GO27Q24G:27英寸QHD 240Hz

军事要闻

俄美乌首次三方会谈在阿联酋举行

无障碍浏览 进入关怀版