网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

刚刚，百度开源拿下全球第一！作者疑似DeepSeek出走大神

2026-06-22 22:16:20　来源: 新智元

北京举报

0

分享至

新智元报道

【新智元导读】百度开源Unlimited OCR！3B参数500M激活，一口气读完40页不失忆。作者疑似DeepSeek出走的OCR核心大神。

就在刚刚，百度闷声干了票大的！

最新开源的Unlimited OCR，总参数3B，实际激活仅500M——放在大模型时代几乎是个零头。

但就是这个小到离谱的模型，在OmniDocBench v1.5上拿下93.23%的综合分，v1.6更是达到93.92%，直接刷新了端到端SOTA。

什么概念？v1.5同台竞技的选手里，235B的Qwen3-VL拿了89.15，72B的Qwen2.5-VL拿了87.02，不公布参数量的Gemini-2.5 Pro也只有88.03。激活参数不到它们零头的选手，反手把它们全甩了。

更离谱的是，它还干了件之前没有OCR模型干成过的事：一口气解析40多页文档，不失忆、不降速，一次推理从第一页读到最后一页。

目前，模型和代码都已同步上线GitHub和HuggingFace。

GitHub：

https://github.com/baidu/Unlimited-OCR

Hugging Face：

https://huggingface.co/baidu/Unlimited-OCR

为什么所有模型都在「逐页失忆」

说到OCR，现在模型笨得让人意外。

它们会把一件原本连贯的长程任务，硬生生切成几十个互不相干的小任务，再靠一个外部调度器把结果勉强缝起来。就像在跑一个for循环，处理完一页就把记忆清空，再从头开始下一页。

能用，但本质上只是工程的权宜之计，离真正的智能还差着一大截。

究其原因在于，随着输出越来越长，标准注意力机制下的KV缓存像滚雪球一样疯涨——内存吃不消，速度越来越慢。

这才是逼着所有模型逐页处理、频频「失忆」的真正元凶。

但人类抄书，从来不是这么干的。

我们会维持一种连续的认知状态——眼睛盯着三个点：原书、刚写下的一小段、即将要写的下一个字。

早些写过的内容慢慢淡出脑海，最近的上下文用来盯住当前进度。

这种能力有个很妙的名字：「软遗忘」（soft forgetting）。

正是靠着这种「该忘就忘」的本事，人才能在极低认知负荷下扛住超长任务。比如，抄一本书、译几百页、连续转录数小时音频。

百度想做的，就是把人类这种「原文全局可见、记忆只保留最近几行」的注意力方式，搬进模型里。让OCR告别失忆。

R-SWA：把「抄书的秘密」写进注意力

顺着这个思路，百度提出了报告里的核心技术——参考滑动窗口注意力（Reference Sliding Window Attention，R-SWA），精确对应前面说的人抄书时的注意力模式。

具体来说，每生成一个token，R-SWA都会去看全部「参考token」，也就是整张图像的视觉token和提示词，保证模型始终「看得见」完整原文。

但在输出这一侧，它只回看前面128个token，就像你抄书时只瞄一眼刚写的那几行。

落到实现上，Unlimited OCR把所有注意力层全换成R-SWA，从而把KV缓存变成一个固定容量的队列。

每生成一个新token，最老的那个就被挤出去，大小始终不变。输出1万个token和10万个token，内存占用是完全一样的。

报告中Flash Attention v3的延迟测试也一目了然。

DeepSeek OCR的标准MHA随着解码步数增加，每步耗时稳步攀升；而Unlimited OCR的R-SWA从头到尾一条平线，纹丝不动。

一次推理，读完几十页

这里还有一个至关重要的配合：DeepEncoder。

这个最初在DeepSeek OCR中登场的编码器，能把一张1024×1024的PDF页面压缩到仅仅256个视觉token，压缩率高达16倍。

而且由于视觉token在R-SWA下不参与状态转移，因此无论文档多长，图像信息永远清清楚楚，不会随解码过程逐渐退化。

配合DeepEncoder的极致压缩和R-SWA的恒定缓存，Unlimited OCR在标准的32K上下文里，一次前向推理就能转录数十页文档。

结果显示，同时输入20页文档，转录与原文逐字比对的编辑距离仅0.057；即便输入40页以上，依然控制在0.11以下，衡量重复输出的Distinct-35高达97%——几十页一口气转录，几乎没有复读。

在OmniDocBench v1.5上，Unlimited OCR拿到93.23%的综合得分，比DeepSeek OCR的87.01%高出6.22个百分点。

文本编辑距离从0.073降到0.038，公式CDM从83.37飙到92.61，表格TEDS从84.97升至90.93。

在更新的v1.6上，同样以93.92%拿下端到端SOTA。

效率方面同样碾压。

输出达到6144个token时，Unlimited OCR的TPS是7847，DeepSeek OCR已经掉到5822，差距高达35%。

别忘了，这是一个500M激活的MoE小模型，在DeepSeek OCR基础上仅继续训练4000步的结果。

投入不算大，但效果拔群——R-SWA对解析任务是一种真正的「免费午餐」。

九大文档类型的细分对比中，PPT、论文、杂志、报纸无一短板，Unlimited OCR在文本和阅读顺序两项上全面超越DeepSeek OCR，且在七个类别中领先DeepSeek OCR 2。

一位神秘的技术总监

跑分说完了。但这份报告真正有意思的地方，是行文方式。

从副标题的语气到技术的叙事，读过DeepSeek那几份技术报告的人，几页下来就会觉得似曾相识。

末尾还断言R-SWA是通用解析机制，而OCR只是第一站。

一篇OCR报告，硬是写出了探索通用智能的味道。

然后，是那个最让人在意的地方——作者名单。

核心贡献者三位：Youyang Yin，Huanhuan Liu*（项目leader），YY†（技术总监）。

两个人用真名，唯独技术总监挂了个两字母缩写。有点意思。

虽然论文没多说，但GitHub致谢栏却把线索递了过来：Deepseek-OCR和Deepseek-OCR-2，排在致谢前两位。

顺着这条线往回找。DeepSeek OCR从一代到二代，核心作者始终三个人：魏浩然、孙耀峰、李宇琨。同一支小队伍，从无到有。

今年4月DeepSeek发V4，魏浩然名字后面多了星号——已离职。

三个人里，只有他已经公开离开。

再看履历。魏浩然，阶跃星辰出身，主导开发了端到端OCR最早跑通的开源标杆GOT-OCR2.0。到DeepSeek后，更是一手搭起整条OCR线，DeepEncoder、MoE解码器，一代到二代都是他的团队。

能力、时间线、署名方式，三条都对得上。

国内OCR圈不大，能做出R-SWA这种级别突破、还对DeepSeek OCR架构有「亲手做过」级别熟悉的人，一只手数得过来。魏浩然是其中最显眼的那一个。

如此一来，YY大概率就是魏浩然了。

百度，依然能打

过去几年，PaddleOCR几乎是国产OCR的代名词。开源、轻量，产业落地最广——从手机端到服务器到嵌入式设备，覆盖了最主流的应用场景。

不过之前百度更侧重产业应用。稳定性、部署成本、场景覆盖是强项，「用前沿研究理念重塑OCR范式」这个方向并非其叙事重点。

而魏浩然做的，恰好就是这件事。

从GOT-OCR2.0的端到端一次解析，到DeepSeek-OCR的视觉压缩，再到R-SWA——先想清楚OCR应该长什么样，再做出来。

一边是产业落地最成熟、场景覆盖最广的工程底座；一边是端到端长程解析最前沿的研究品味。两者叠加，补齐的不只是一个技术短板，而是一种「既能大规模铺开、又能持续引领范式」的完整能力。

百度今年把AIDU人才计划升级为集团级项目、薪酬不设上限。对一个想把研究做到落地的人来说，百度多年铺下来的产业底座，比单纯的高薪更有说服力。

魏浩然如果真的选了百度，逻辑就很清楚——这里有最成熟的产业底座，也有把研究推到前沿的空间和资源。

如果他真的把R-SWA推广到ASR和翻译，那百度手里握着的就不只是一个OCR模型，而是一套通用长程解析的技术框架。

论文展望里还留了一句：下一步，上下文窗口训到128K，构建prefill pool让模型学会自动翻页。

如果做到了，OCR就不再是识别一页文字，而是理解一整本书。

参考资料：

https://github.com/baidu/Unlimited-OCR

https://huggingface.co/baidu/Unlimited-OCR

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

Claude Code破解3500年前死语言！74年来最大考古语言学突破

新智元 2026-06-22 22:15:16
10 跟贴 10
刚刚，阿里HappyHorse1.1上线，我用它把国足送进世界杯

智东西 2026-06-22 20:23:55
1 跟贴 1

实测两款AI工具后，我开始认真考虑“一人公司”了

智东西 2026-05-15 19:03:22
57 跟贴 57

DAA、超级个体与混合编队：李彦宏的AI时代进化论

钛媒体APP 2026-05-13 17:58:13
0 跟贴 0
百度旗下基金等入股欧拉万象，机器人ETF华夏（562500）四连涨后迎来回调机会

每日经济新闻 2026-06-22 11:09:05
0 跟贴 0

百度沈抖自曝：老忘吃药，用AI做了个小程序

量子位 2026-03-27 11:25:23
0 跟贴 0

DeepSeek 2.0时刻？智谱市值突破万亿港元，GLM-5.2刷屏华尔街

华尔街见闻官方 2026-06-22 14:28:04
3 跟贴 3
一张无意间拍下的照片，揭示了狼群的组织架构 #科普 #狼群

小白聊科普 2026-06-19 08:49:41
31 跟贴 31

AI奇观：我在主会场卷，Agent在20余个分会场替我听会

新智元 2026-06-22 15:37:45
10 跟贴 10
男子开车以为进小区结果是上高速近日，男子驾车从贵阳回遵义过端午，误将外观与小区大门高度相似的高速收

中安在线 2026-06-22 11:43:28
145 跟贴 145
不出意外！广东队未来5年5大主力架构如下

一只会跳舞的熊 2026-06-20 01:56:35
0 跟贴 0
DeepSeek急急急缺人！外国人也要

智东西 2026-06-22 19:43:47
1 跟贴 1
2比2战平乌拉圭！佛得角再造冷门，手握出线主动权

澎湃新闻 2026-06-22 08:06:28
8490 跟贴 8490
刘美含张远被曝谈过恋爱？一分钟梳理时间线，疑似因调侃磨皮闹翻

贵圈星娱 2026-06-20 16:49:56
2 跟贴 2
内塔尼亚胡强硬表态：以军不会撤出黎巴嫩

新华社 2026-06-22 14:35:09
7973 跟贴 7973
出油全球第一，采摘全靠人工！带你见识油棕果采收

可爱爆了 2026-06-22 10:27:19
1 跟贴 1
29项全球第一！比亚迪大唐EV正式上市，这才是全尺寸旗舰新标杆？

爱玩儿车EverCar 2026-06-21 10:00:00
0 跟贴 0
PS6真要跳票到2028？新爆料说“稳了”

雾野寻踪2 2026-06-23 01:06:07
0 跟贴 0
女子将宠物犬寄存海底捞办公室后死亡门店回应

极目新闻 2026-06-22 08:36:39
2668 跟贴 2668
痛别！派出所副所长陈佳鑫，一路走好

环球网资讯 2026-06-22 20:05:40
23 跟贴 23
理想高管说特斯拉智驾太强了，但华为智驾破120亿公里，谁对？

春雨说科技 2026-06-22 14:45:16
41 跟贴 41
摩根士丹利拟打造13亿美元新办公大楼拓展达拉斯业务

财联社 2026-06-23 00:51:04
0 跟贴 0
Xbox游戏负责人怒批平台“烂作”：不做好内容就等着完蛋

自愈小日子 2026-06-23 00:38:04
0 跟贴 0
29项全球第一加持，大唐EV耀世登场，性价比拉满

科技解析站 2026-06-22 22:03:54
2 跟贴 2
视频丨东风-17发射状态首次公开！多车齐射场面硬核

环球网资讯 2026-06-22 08:05:35
919 跟贴 919
马斯克前联创洽谈10亿美元巨融，要造一个真正归你的AI

新智元 2026-06-22 22:14:48
0 跟贴 0
10年，不停挖不停修不停夜间施工？！上海市中心这段路，“扰民困局”如何破解

新民晚报 2026-06-22 18:49:07
106 跟贴 106
沙特被“打回原形”了？

新民晚报 2026-06-22 09:35:47
363 跟贴 363
葡萄牙队孔塞桑：我们没义务给C罗喂球，会把球传给位置最好的队友，他和任何球员一样，都是来帮助球队的

极目新闻 2026-06-22 11:29:35
1953 跟贴 1953
周冬雨演话剧遭差评，导演回应

第一财经资讯 2026-06-22 14:25:10
77 跟贴 77
丢人丢到全亚洲，马来西亚媒体都来嘲讽新加坡：反应这么大干嘛？

史智文道 2026-06-22 22:14:45
5 跟贴 5
世界杯午报丨埃及3-1战胜新西兰暂居G组榜首

央视新闻客户端 2026-06-22 11:07:41
284 跟贴 284
降价也卖不动的合资燃油车开始主动撤出门店

界面新闻 2026-06-22 19:38:24
1 跟贴 1
英国首相斯塔默发表辞职演讲当场哽咽：我要当妻子的好丈夫孩子的好爸爸

参考消息 2026-06-22 18:52:43
2079 跟贴 2079
狗狗听到谁摇头，好像一个猪猪在甩耳朵，网友指令代码提前介入！

坤坤爱话筒 2026-06-21 15:44:36
4 跟贴 4
说话逻辑拉满，干净利落怼到对方无话反驳

星星看看 2026-06-22 13:15:52
1 跟贴 1
本届世界杯最大赢家出炉！贝克汉姆靠广告斩获1.76亿收入

武汉血液中心 2026-06-22 23:10:28
5 跟贴 5
"夏至吃一瓜，中药不用抓"，清热解毒、利尿祛湿，2元1斤很实惠

这知识好冷 2026-06-22 15:09:49
2 跟贴 2
喜酒难道不算酒？这逻辑我直接笑出声

剧蜀黍影视 2026-06-21 11:00:48
3 跟贴 3
ACL 2026 | 腾讯混元发现「不完全学习」，SFT仍漏学15%训练数据

新浪财经 2026-06-19 21:42:38
0 跟贴 0

万斯：伊朗已同意邀请国际原子能机构核查人员，一旦美国同意解冻伊朗资产，可能将用于购买美国大豆、玉米，伊朗总统：伊朗未作任何让步

万斯：伊朗已同意邀请国际原子能机构核查人员，一旦美国同意解冻伊朗资产，可能将用于购买美国大豆、玉米，伊朗总统：伊朗未作任何让步

政知新媒体

2026-06-22 23:20:13

今日，2只新股申购！“高中签率”新股来了

今日，2只新股申购！“高中签率”新股来了

证券时报

2026-06-22 09:02:03

小天赐爸爸父亲节落泪！自曝儿子去世真相，六年了，第一次后悔！

小天赐爸爸父亲节落泪！自曝儿子去世真相，六年了，第一次后悔！

吃青菜长高

2026-06-22 01:13:06

大反转！凯尔特人领跑字母哥交易，重磅交易筹码远优于热火

大反转！凯尔特人领跑字母哥交易，重磅交易筹码远优于热火

夜白侃球

2026-06-22 22:45:05

齐祖盛赞梅西：岁月夺不走他对赛场的顶级掌控力，他仍是世界第一

齐祖盛赞梅西：岁月夺不走他对赛场的顶级掌控力，他仍是世界第一

体育闲话说

2026-06-22 06:00:42

中山市小榄镇九洲基社区党委原书记卢常秋被开除党籍

中山市小榄镇九洲基社区党委原书记卢常秋被开除党籍

南方都市报

2026-06-22 11:13:11

柬埔寨抓了条“大鱼”！内鬼浮出水面，竟是我们信任的商会长？

柬埔寨抓了条“大鱼”！内鬼浮出水面，竟是我们信任的商会长？

李云飞Afey

2026-06-19 19:06:51

雷军回应被过路小女孩吐槽“吃早饭还要这么多人拍照”：在流量时代，这是我们都要承受的代价，大家看到这些报道，笑一笑就好

雷军回应被过路小女孩吐槽“吃早饭还要这么多人拍照”：在流量时代，这是我们都要承受的代价，大家看到这些报道，笑一笑就好

大风新闻

2026-06-21 16:26:12

内塔尼亚胡怕是没想到，特朗普为了买卖，竟然“不听以色列的”？

内塔尼亚胡怕是没想到，特朗普为了买卖，竟然“不听以色列的”？

让生活充满温暖

2026-06-23 01:08:32

央视三胎宣传片惹争议，脱离现实强行把孕妇塑造成超人式幸福？

央视三胎宣传片惹争议，脱离现实强行把孕妇塑造成超人式幸福？

番外行

2026-05-24 09:14:38

美媒曾感慨：要不是中国还在反抗，几乎全世界都向特朗普投降了！

美媒曾感慨：要不是中国还在反抗，几乎全世界都向特朗普投降了！

谁将笑到最后

2026-06-12 16:21:54

马斯克曾言：未来全球仅剩10家车企，由特斯拉和中国包揽

马斯克曾言：未来全球仅剩10家车企，由特斯拉和中国包揽

柏拉图的诉说1

2026-06-22 18:33:28

寺为何叫寺，庙为何叫庙，寺和庙有什么区别，作为中国人要了解

寺为何叫寺，庙为何叫庙，寺和庙有什么区别，作为中国人要了解

长风文史

2026-05-18 15:57:36

我国越来越多的人患脑梗？建议：停止食用“4物”，保护大脑

我国越来越多的人患脑梗？建议：停止食用“4物”，保护大脑

医学科普汇

2026-06-22 17:21:25

台东人要用选票制裁民进党？郑村棋：梁文杰失言恐害惨陈莹

台东人要用选票制裁民进党？郑村棋：梁文杰失言恐害惨陈莹

兰妮搞笑分享

2026-06-23 00:17:19

TCL李东生放话：工人工资高了，不利于国际竞争，评论区一片骂声

TCL李东生放话：工人工资高了，不利于国际竞争，评论区一片骂声

谭谈社会

2026-06-21 10:24:44

美伊和谈之际以色列为何频搅局？

美伊和谈之际以色列为何频搅局？

风铃草语

2026-06-22 06:39:13

分手后狗狗被带走，凌晨三点主人开门……狗小心翼翼地出现在门口：别不要我啊，我会乖乖听话的！

分手后狗狗被带走，凌晨三点主人开门……狗小心翼翼地出现在门口：别不要我啊，我会乖乖听话的！

爱宠物

2026-06-23 00:58:23

你知道吗？这些公安部门以前全是独立的！

你知道吗？这些公安部门以前全是独立的！

音乐时光的娱乐

2026-06-21 12:38:39

网友称“重庆发展远超台北10年”，黄暐瀚叫嚣：关台湾X事

网友称“重庆发展远超台北10年”，黄暐瀚叫嚣：关台湾X事

金牛传声

2026-06-22 11:01:50

AI产业主平台领航智能+时代

15507文章数 66929关注度

往期回顾全部

科技要闻

马云与阿里巴巴众高管下田插秧

头条要闻

媒体：中国"两箭齐发"反制美国不卖了也不买了

头条要闻

媒体：中国"两箭齐发"反制美国不卖了也不买了

体育要闻

法国球星祝中国队下届世界杯取得好成绩

娱乐要闻

陪睡陪玩是皮毛，向佐揭内娱暗规则

财经要闻

前美联储主席格林斯潘去世享年100岁

汽车要闻

华为智驾ADS限时优惠月底结束 7月1日前下订立省3000元

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

时尚

教育

手机

本地

军事航空

羞辱妈妈的烂梗，越来越歹毒了

教育要闻

这两所医学院，是26年最后的抄底机会！

手机要闻

一加 16T曝光，6.3英寸超高刷小直屏

本地新闻

吃一次广东龙舟饭，才懂什么是豪华盛宴

军事要闻

东风-17发射状态首次公开多车齐射场面硬核

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版