网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

文本已死，视觉当立！Karpathy狂赞DeepSeek新模型，终结分词器时代

2025-10-21 13:50:54　来源: 新智元

北京举报

0

分享至

新智元报道

编辑：KingHZ 好困

【新智元导读】AI新突破！DeepSeek-OCR以像素处理文本，压缩率小于1/10，基准测试领跑。开源一夜4.4k星，Karpathy技痒难耐，展望视觉输入的通用性。

DeepSeek再次让全世界大吃一惊！

他们最新成果DeepSeek-OCR，从根本上改变了游戏规则——

文本并非通用的输入。反而，视觉将取而代之！

此外，在光学文字识别OCR任务上，DeepSeek-OCR模型名副其实，堪称工程学的巅峰之作——

在单卡A100-40G上，可达每秒约2500 Token，跑得飞快。

在保持97% OCR准确率的前提下，可将视觉上下文压缩至原来的1/20，常规使用下压缩比也能轻松小于1/10。

在OmniDocBench基准测试中，使用更少的视觉Token，即可超越GOT-OCR2.0和MinerU2.0的表现。

到底效果多惊艳？

一整页密密麻麻的文本，被压成仅仅100个视觉Token，在 OmniDocBench上实现最多60倍压缩！

DeepSeek-OCR简直把文字变成了像素点，就像把一本100页的书压缩成一张照片，AI依然能读懂它。

参数少、压缩率高、速度快、涵盖100种语言……DeepSeek-OCR全都要。

不仅理论价值大，实用性还很高强，好评如潮：

Github开源项目DeepSeek-OCR，一夜收获4.4k星：

DeepSeek-OCR用事实证明，实体页面（如缩微胶片、书籍）才是训练AI模型的更优数据源——而非低质量的互联网文本。

「骨子里的计算机视觉研究者」、特斯拉前AI总监、OpenAI创始团队成员Karpathy，难掩欣喜，力挺DeepSeek新模型。

Karpathy

技痒难耐，早已受不了分词器

Karpathy相当喜欢。

但更有趣的部分在于，对于大语言模型来说，像素输入是否优于文本输入？在输入端，文本Token会不会是一种既浪费又糟糕透顶的方式？

DeepSeek-OCR在动摇「文本作为AI的核心地位」，而视觉或将再次成为主流！

Karpathy自称「骨子里搞计算机视觉」，只是暂时混迹在自然语言处理圈，自然对上述问题尤其感兴趣。

或许，大语言模型的所有输入都只应该是图像，这才更有道理。就算你手头是纯文本输入，可能也最好先把它渲染成图像再喂给模型：

更高的信息压缩率 => 更短的上下文窗口，更高的效率。
信息流的通用性显著增强 => 不再局限于文本，还可以处理粗体、彩色文本乃至任意图像。
输入现在可以轻松地、默认地采用双向注意力机制处理，而不再是自回归注意力——这可要强大得多。
干掉（输入端的）分词器tokenizer！！

特别是最后一点，Karpathy忍了很久了，早就多次吐槽分词器太烂了——

分词器丑陋、独立，并非端到端的环节。

它「引入」了Unicode和字节编码的所有糟粕，背负着沉重的历史包袱，还带来了安全/越狱风险（比如连续字节问题）。

它让两个肉眼看起来一模一样的字符，在网络内部却变成了两个风马牛不相及的 Token。

一个微笑的表情符号，，而不是一个带有像素、承载着丰富信息、能从中进行迁移学习的真实笑脸。

总之，Karpathy认为，分词器「恶行累累」，这次必须赶走分词器。

此外，他展望了视觉成为通用输入的前景：

OCR只是「视觉到文本」众多落地应用中的一种。而「文本到文本」的任务也可以被改造为「视觉到文本」的任务，反之则不行。

所以，或许用户输入的消息是图像，但解码器（即「智能助理」的响应）依然是文本。

至于，到底如何真实地输出像素或者说你是否真想这么做，就远没那么明朗了。

现在，Karpathy表示，他要拼命忍住，不去搞一个只用图像输入的「nanochat」的支线任务。

为什么图像输入对AI更友好？

有网友问：

首先，为什么图像能轻易获得双向注意力，而文本却不能？

另外，虽然图像没有像文本那样的「Token化」过程，但我们把输入图像切割成一个个图像块（patches）时，难道得到的不是类似，甚至可能更不理想的结果吗？

对此，Karpathy表示，原则上可以，只不过为了追求效率，文本（的生成）通常采用简单的自回归方式进行训练。

可以设想存在一个中间训练阶段，利用双向注意力机制，微调条件信息，比如那些我们不需要去预测或生成的代表用户消息的Token。

原则上，你可以对整个上下文窗口进行双向编码，而目的仅仅是为了预测下一个 Token。但这么做的代价就是无法并行化训练。

至于第二个问题，他认为，严格来说与「像素 vs. Token」无关。其核心更在于，像素通常是被编码的（encoded），而 Token则是被解码的（decoded）。

至于，Karpathy的「nanochat支线任务论」，网友并不认可：

DeepSeekOCR证明这不仅关乎压缩——更是语义的蒸馏。

分词器时代意味着识字，像素时代则关乎感知。

Nanochat不该是支线任务，它是「光学认知」的开端。

帖子下面，网友恳求Karpathy：快搞个只用图像输入的「nanochat」吧！

Karpathy的前老板、「好兄弟」马斯克给出了更科幻的猜想：

长期来看，AI模型超过99%的输入和输出将是光子。

马斯克让Grok估计了一下已知宇宙的光子总量：

1=估算可观测宇宙中的光子总数是一项复杂的工作，但我们可以基于几个主要组成部分得出一个大致数字：宇宙微波背景辐射（CMB）产生的光子、星光光子，以及其他一些微弱来源。

宇宙微波背景辐射（CMB）占据主导地位，使得可观测宇宙中的光子总数约为1.5×10⁸⁹个。这个数字是一个粗略估算，具体数值取决于可观测宇宙的精确体积以及其他微小来源的贡献，但整体上与宇宙学计算结果相符。

1.5×10⁸⁹！没有其他东西能达到这种规模。这就是马斯克的逻辑。

毕竟，人类就是通用「光学计算系统」——眼睛来认识世界的：

作者介绍

这次论文一共有三位作者：Haoran Wei、Yaofeng Sun、Yukun Li。

论文地址：https://github.com/deepseek-ai/DeepSeek-OCR/blob/main/DeepSeek_OCR_paper.pdf

论文一作Haoran Wei，此前也是GitHub 7.9k星爆火项目GOT-OCR2.0，即「General OCR Theory: Towards OCR-2.0 via a Unified End-to-end Model」的一作。

项目地址：https://github.com/Ucas-HaoranWei/GOT-OCR2.0

论文地址：https://arxiv.org/abs/2409.01704

Yaofeng Sun是DeepSeek的软件工程师，于2023年加入幻方AI/DeepSeek。

谷歌学术显示，他参与了DeepSeek-r1、DeepSeek-v3、DeepSeek-vl2、DeepSeek-v2、DeepSeek-vl、DeepSeek LLM等模型的研究。

据悉，他本科毕业于北京大学图灵班（Turing Class）计算机科学专业。

他代表北京大学参赛，获得ACM-ICPC 亚洲区域赛金牌（2017–2019），获奖赛区包括：EC 总决赛 2017、青岛 2017、西安 2017、上海 2019、南京 2019。

之前，他获得全国信息学奥林匹克竞赛（NOI）金牌（2015、2016）。

Yukun Li也是高产的AI从业者——

2020年至今，引用数已过9千；参与过DeepSeek-v3、DeepSeek-vl2、DeepSeek-v2、DeepSeek-Coder、DeepSeek-MoE、DeepSeek LLM等项目研究。

我们一起见证他们带来的AI新突破，一起见证开源AI的崛起！

参考资料：

https://x.com/karpathy/status/1980397031542989305

https://x.com/teortaxesTex/status/198023417556435798

https://www.linkedin.com/in/sunyaofeng/

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

VFMTok: Visual Foundation Models驱动的Tokenizer时代来临

机器之心Pro 2025-10-28 18:00:47
1 跟贴 1
马斯克Grok 4深夜大升级：200万逆天上下文、五倍GPT-5「脑容量」！

新智元 2025-11-09 11:21:24
2 跟贴 2

让LLM不再话痨，快手HiPO框架来了

机器之心Pro 2025-11-03 15:10:48
0 跟贴 0

微信终于松口了？多手机登同一微信号要来了！

雷科技 2025-11-07 18:43:10
23 跟贴 23
英伟达、DeepSeek集体跟进！18个月前被忽视，如今统治AI推理

新智元 2025-11-09 13:33:03
31 跟贴 31

人类或许永远无法观察到宇宙，因宇宙存在一个现象？

六六冷知识 2025-11-06 23:00:23
32 跟贴 32

终结Transformer统治！清华姚班校友出手，剑指AI「灾难性遗忘」

新智元 2025-11-08 17:13:46
61 跟贴 61
小成本DeepSeek和Kimi，正攻破奥特曼的「算力护城河」

新智元 2025-11-09 19:06:11
1 跟贴 1

杨立昆、李飞飞等提出空间超感知范式，用预测未来代替暴力记忆

DeepTech深科技 2025-11-08 21:19:07
7 跟贴 7
宇宙中最大的天体结构究竟有多大？

万物研究 2025-11-09 11:39:26
1 跟贴 1
史上最长！2300万光年黑洞喷流横扫宇宙！

万物研究 2025-11-09 17:16:03
1 跟贴 1
如果说宇宙诞生于虚无？那虚无又从何而来

六六冷知识 2025-11-07 23:36:37
3 跟贴 3
Walle的超强意识如上帝视觉

沈万基cs 2025-11-08 17:00:00
0 跟贴 0
俄媒：俄军即将攻占乌克兰"第三首都"

每日经济新闻 2025-11-08 22:55:11
48481 跟贴 48481
师傅用电钻调公里数，试图把上百万数值归零，这得转到啥时候！

小新妙趣 2025-11-06 16:12:35
1 跟贴 1
宇宙二级文明有多恐怖？

木棉小历史 2025-11-07 07:22:24
0 跟贴 0
“红色怪兽”横空出世！詹姆斯·韦伯望远镜颠覆宇宙早期认知？

世界地理小知识 2025-11-08 18:09:52
1 跟贴 1
图像分词器造反了！华为 Selftok：自回归内核完美统一扩散模型

机器之心Pro 2025-05-22 10:38:46
0 跟贴 0
DeepSeek预测：5年后，300万的房子值多少钱？真的是超出了预期

小牛爱说事儿 2025-11-08 09:28:25
1 跟贴 1
美财长：美25年来制造首块稀土磁铁结束中国"卡脖子"

澎湃新闻 2025-11-08 21:49:11
12652 跟贴 12652
115岁的李陈氏，出生于清朝的“老宝贝”｜面孔

大象新闻 2025-11-09 09:38:06
4632 跟贴 4632
史上最远系外行星照片！韦伯望远镜展示宇宙深处新发现！

世界地理小知识 2025-11-09 11:39:41
1 跟贴 1
搭高通骁龙8255芯片，豆包＋Deepseek上车，福特全新“方盒子”配置有点炫！

车矩阵更懂车 2025-11-09 23:05:04
4 跟贴 4
【DeepSeek谈艺】黄少鹏 | 通过油画传递东方意境，直抵精神内核

文化视界网 2025-11-09 16:08:19
0 跟贴 0
拒绝加班！会用这2个Excel小技巧，让你的工作效率提升10倍！

秋叶excel 2025-11-07 11:42:34
1 跟贴 1
LLM把简单任务复杂化，Karpathy无语：有些任务无需那么多思考

机器之心Pro 2025-08-12 11:16:52
0 跟贴 0
【DeepSeek谈艺】孙立新 | 将大地的雄浑与人物的质朴溶于纸墨

文化视界网 2025-11-09 16:13:03
0 跟贴 0
郑丽文出席吴石追思会面对绿营妖言不得不出言澄清

新民周刊 2025-11-09 09:07:52
651 跟贴 651
谁把宇宙调成了适合生命的样子

云徊科普 2025-11-08 09:10:37
3 跟贴 3
什么仅仅只是远远看了一眼地球，就能让一个人怀疑人生！

二次元小韩 2025-11-09 08:05:28
0 跟贴 0
杰克逊抢劫，霍金打拳击？！大量已故名人网上被AI“复活”，被彻底“操控”了

英国那些事儿 2025-11-09 23:08:12
14 跟贴 14
广州塔13个落选方案，最高1000米！

GA环球建筑 2025-11-09 22:23:13
8 跟贴 8
字节Seed团队发布循环语言模型Ouro，在预训练阶段直接「思考」

机器之心Pro 2025-11-04 11:58:36
0 跟贴 0
韩国停用汉字50年，从硬气断根到跪求恢复，追悔莫及想回头

华山穹剑 2025-11-09 20:45:22
8 跟贴 8
幽默飞镖人？Faker峡谷之巅掏出劫，走位纯在秀但数值低到招笑！

电竞游戏旋风 2025-11-07 20:10:34
4 跟贴 4
武汉铁路局武汉客运段通报“高铁票买到19排但车厢只有17排”

环球网资讯 2025-11-09 13:42:07
5922 跟贴 5922
网友称小米一个电器领域就能把格力"干掉" 王自如回应

潇湘晨报 2025-11-09 12:35:21
5484 跟贴 5484
花24万买的准新车竟是“融资租赁”车，消费者要求退一赔三，瓜子二手车回应

半岛官网 2025-11-09 20:29:03
56 跟贴 56
地球上的神秘之地，视觉冲击超震撼，仿佛置身梦幻之境

搞笑谁在行 2025-11-06 00:00:00
0 跟贴 0
温州S1线太吵！街道：建议自己筹钱加装隔音罩

温百君 2025-11-09 19:37:27
2 跟贴 2

厉害，绕城高速已不能满足郑州，第二绕城高速将在26年闭环不拥堵

厉害，绕城高速已不能满足郑州，第二绕城高速将在26年闭环不拥堵

石辰搞笑日常

2025-11-10 04:09:24

曝苹果18 Pro系列取消“灵动岛”挖孔方案采用HIAA方案

曝苹果18 Pro系列取消“灵动岛”挖孔方案采用HIAA方案

手机中国

2025-11-07 13:46:30

余华：我们对人性最大误会，是以为只要是人，都会有点人性和良心

余华：我们对人性最大误会，是以为只要是人，都会有点人性和良心

杏花烟雨江南的碧园

2025-10-10 14:00:03

LV总裁吴越现身上海！马上70岁，戴着钻戒名表身材苗条像四五十岁

LV总裁吴越现身上海！马上70岁，戴着钻戒名表身材苗条像四五十岁

乐悠悠娱乐

2025-11-07 11:00:50

美军所有项目，中国人碰都不能碰？美防长通告全球，中方被除名

美军所有项目，中国人碰都不能碰？美防长通告全球，中方被除名

花花娱界

2025-11-05 19:26:16

两连板！002083，最新公告！

两连板！002083，最新公告！

证券时报e公司

2025-11-09 18:22:39

陈凯歌《志愿军3》香港票房仅15.5万，金城武《风林火山》1218万

陈凯歌《志愿军3》香港票房仅15.5万，金城武《风林火山》1218万

千信齐飞

2025-11-07 15:43:38

华为突然提速！鸿蒙6联动微信大升级，Mate80前夜的手机圈变天了

华为突然提速！鸿蒙6联动微信大升级，Mate80前夜的手机圈变天了

小8说科技

2025-11-09 21:41:50

河北拦婚车要50条烟后续！事件经过曝光，新人含恨，司机成受害者

河北拦婚车要50条烟后续！事件经过曝光，新人含恨，司机成受害者

逍遥浪腾云

2025-11-09 21:53:59

中央红军御林军：长征时期头戴钢盔、配冲锋枪，全团顶级装备！

中央红军御林军：长征时期头戴钢盔、配冲锋枪，全团顶级装备！

诗意世界

2025-11-07 18:01:13

东大机会来了！高市早苗公然叫嚣台岛一旦有事，日本可以出兵参战

东大机会来了！高市早苗公然叫嚣台岛一旦有事，日本可以出兵参战

阿龙聊军事

2025-11-09 11:02:28

双色球第2025129期开奖情况：红球两组同尾号，红蓝号都有03，一等奖16注

双色球第2025129期开奖情况：红球两组同尾号，红蓝号都有03，一等奖16注

王晓爱体彩

2025-11-10 02:41:28

我退休51岁，找个47岁农村光棍，洞房夜他的一个举动，我泪流不止

我退休51岁，找个47岁农村光棍，洞房夜他的一个举动，我泪流不止

瓜哥的动物日记

2025-10-27 11:11:06

女性出轨率最高的几大职业

微微热评

2025-11-04 12:27:00

辽宁一小伙，因穷装而爆火，小屋空荡荡，却无一丝穷酸气，真高级

辽宁一小伙，因穷装而爆火，小屋空荡荡，却无一丝穷酸气，真高级

手工制作阿爱

2025-11-09 07:46:24

59岁的罗马里奥已与22岁女友分手，巴媒：他又有了新约会对象

59岁的罗马里奥已与22岁女友分手，巴媒：他又有了新约会对象

懂球帝

2025-11-09 19:34:10

我和女同学一起回家在麦秸垛躲雨，她问我：今晚回不去了怎么办？

我和女同学一起回家在麦秸垛躲雨，她问我：今晚回不去了怎么办？

秋风专栏

2025-11-05 11:34:59

福建舰为何选在11月5日入列？绝不只是天气好，中国此举别有深意

福建舰为何选在11月5日入列？绝不只是天气好，中国此举别有深意

Ck的蜜糖

2025-11-09 10:49:30

苏提达亮相文化盛典，露肩礼裙尽显王室威仪，四妃嫔难掩王后雍容气度

苏提达亮相文化盛典，露肩礼裙尽显王室威仪，四妃嫔难掩王后雍容气度

可乐谈情感

2025-11-09 13:35:05

旗手王琦领衔！江苏代表团51人方阵亮相十五运开幕式

旗手王琦领衔！江苏代表团51人方阵亮相十五运开幕式

新浪财经

2025-11-09 20:57:42

AI产业主平台领航智能+时代

13828文章数 66239关注度

往期回顾全部

科技要闻

黄仁勋亲赴台积电“讨要更多芯片”

头条要闻

白宫：BBC是“假媒体” 恶意剪辑特朗普讲话

头条要闻

白宫：BBC是“假媒体” 恶意剪辑特朗普讲话

体育要闻

他只想默默地拿走最后一亿美元

娱乐要闻

《繁花》事件影响：唐嫣工作被取消

财经要闻

10月CPI同比涨0.2% PPI同比下降2.1%

汽车要闻

钛7月销破2万霜雾灰与青峦翠配色正式开启交付

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

手机

健康

家居

公开课

军事航空

手机要闻

愈演愈烈！iPhone半夜“偷拨号”持续发酵，疑似iOS26的锅？

超声探头会加重受伤情况吗？

家居要闻

现代自由功能美学居所

公开课

李玫瑾：为什么性格比能力更重要？

军事要闻

俄媒：俄军即将攻占乌克兰"第三首都"

© 1997-2025 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版