OCR(光学字符识别)领域这两天迎来了一个极其硬核的“小钢炮”。
长期以来,为了追求极致的 OCR 效果(特别是处理复杂的数学公式、多栏排版和表格),我们往往不得不使用庞大的多模态模型。效果是好了,但推理成本和速度也上去了。
但 LightOnAI 最新发布的一款端到端 OCR 模型LightOnOCR-2-1B彻底打破了这个僵局。
![]()
它是 LightOnOCR 系列的旗舰级 OCR 模型,对外宣称其为这个系列的最佳 OCR 模型。
虽只有 1B 参数,却在各项基准测试中,把规模比它大 9 倍的模型按在地上摩擦。每千页的处理成本不到 0.01 美元(约7分钱),速度快到飞起。
它的核心逻辑非常简单粗暴:输入 PDF 或图片,直接输出完美的 Markdown 格式文本。
![]()
最离谱的是它的效能比。LightOn 用 1B 的参数量,实现了 SOTA(当前最佳)的效果,在速度和精度上双双碾压了众多高参数量的竞争对手。
核心亮点
1、越级挑战 1B > 9B
在权威的 OlmOCR-Bench 测试中,LightOnOCR-2-1B 拿下了 83.2 ± 0.9 的高分。
![]()
这意味着它在处理复杂文档时,表现优于许多参数量是它 9 倍的模型。
特别是在以下场景中表现尤为突出:
- ArXiv 学术论文:复杂的双栏排版。
- 数学公式:包含大量公式的旧扫描文档。
- 表格识别:结构复杂的统计表格。
2、极致速度与低成本
这是工程化落地最看重的指标。在单张 H100 80GB 显卡上(配合 vLLM 推理框架):
- 吞吐量:达到 5.71 页/秒。
- 成本:处理 1000 页文档,电费+算力成本不到 0.01 美元。
速度对比:
![]()
如果你需要大规模处理企业归档文件或图书数字化,这个速度和成本优势是碾压级的。
3、黑科技加持:RLVR 技术
为什么这么小的模型能这么强?秘密在于 RLVR(基于验证反馈的强化学习)。
LightOnOCR团队在训练中引入了特殊的奖励机制:
- KaTeX 奖励:专门针对数学公式渲染进行优化,让输出的 LaTeX 代码更规范、可渲染。
- 压缩奖励机制:惩罚模型的“复读机”行为。让模型的重复率降低了 50% 以上,解决了小模型容易陷入死循环的通病。
- Markdown 结构化输出:它不是吐出一堆乱糟糟的文字,而是带有标题、列表、代码块的整洁 Markdown。
- 复杂元素处理
- 表格:能够还原表格结构。
- 数学公式:完美识别 LaTeX/KaTeX。
- 多栏布局:自动处理报纸、论文的分栏阅读顺序。
- 多功能变体:它还有一个 bbox 变体版本,不仅能识别文字,还能预测图片的边界框。这意味着它能告诉你文档里的插图具体在什么位置,方便你做图文对应的切片。
官方在抱抱脸平台也部署了可体验的 LightOnOCR-2-1B Space。
Demo:
https://huggingface.co/spaces/lightonai/LightOnOCR-2-1B-Demo
![]()
只需上传 PDF 文档或图片即可快速解析。
如果想在 Python 代码中调用,先要安装:
uv pip install git+https://github.com/huggingface/transformersuv pip install pillow pypdfium2代码示例:
import torchfrom transformers import LightOnOcrForConditionalGeneration, LightOnOcrProcessordevice = "mps" if torch.backends.mps.is_available() else "cuda" if torch.cuda.is_available() else "cpu"dtype = torch.float32 if device == "mps" else torch.bfloat16model = LightOnOcrForConditionalGeneration.from_pretrained("lightonai/LightOnOCR-2-1B", torch_dtype=dtype).to(device)processor = LightOnOcrProcessor.from_pretrained("lightonai/LightOnOCR-2-1B")url = "https://huggingface.co/datasets/hf-internal-testing/fixtures_ocr/resolve/main/SROIE-receipt.jpeg"conversation = [{"role": "user", "content": [{"type": "image", "url": url}]}]inputs = processor.apply_chat_template(conversation,add_generation_prompt=True,tokenize=True,return_dict=True,return_tensors="pt",inputs = {k: v.to(device=device, dtype=dtype) if v.is_floating_point() else v.to(device) for k, v in inputs.items()}output_ids = model.generate(**inputs, max_new_tokens=1024)generated_ids = output_ids[0, inputs["input_ids"].shape[1]:]output_text = processor.decode(generated_ids, skip_special_tokens=True)print(output_text)与 vLLM 一起使用:
vllm serve lightonai/LightOnOCR-2-1B \--limit-mm-per-prompt '{"image": 1}' --mm-processor-cache-gb 0 --no-enable-prefix-caching代码示例:
import base64import requestsimport pypdfium2 as pdfiumimport ioENDPOINT = "http://localhost:8000/v1/chat/completions"MODEL = "lightonai/LightOnOCR-2-1B"# Download PDF from arXivpdf_url = "https://arxiv.org/pdf/2412.13663"pdf_data = requests.get(pdf_url).content# Open PDF and convert first page to imagepdf = pdfium.PdfDocument(pdf_data)page = pdf[0]# Render at 200 DPI (scale factor = 200/72 ≈ 2.77)pil_image = page.render(scale=2.77).to_pil()# Convert to base64buffer = io.BytesIO()pil_image.save(buffer, format="PNG")image_base64 = base64.b64encode(buffer.getvalue()).decode('utf-8')# Make requestpayload = {"model": MODEL,"messages": [{"role": "user","content": [{"type": "image_url","image_url": {"url": f"data:image/png;base64,{image_base64}"}}],"max_tokens": 4096,"temperature": 0.2,"top_p": 0.9,response = requests.post(ENDPOINT, json=payload)text = response.json()['choices'][0]['message']['content']print(text)使用技巧: 将 PDF 文件渲染为PNG或JPEG格式,目标最长边为1540 像素。 保持宽高比以保持文本几何形状 每页使用一张图;vLLM 支持批量处理应用场景
- 学术论文/arXiv 文献数字化
- 老档案、扫描书籍 OCR
- 企业文档中台/RAG 数据清洗
- 数学、工程、科研知识库构建
- 财务票据、复杂报表结构化
LightOnOCR-2-1B 是开源 OCR 领域的一个重要里程碑。
它证明了在特定领域任务上,通过高质量的数据清洗和先进的强化学习技术,小模型完全可以战胜大模型。
如果你在做文档理解、知识库、RAG、AI 助教、科研工具,那必须关注这个 OCR 模型。
模型(Hugging Face):
https://huggingface.co/lightonai/LightOnOCR-2-1B
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.