网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

文本已死，视觉当立！Karpathy狂赞DeepSeek新模型，终结分词器时代

2025-10-21 13:50:54　来源: 新智元

北京举报

0

分享至

新智元报道

编辑：KingHZ 好困

【新智元导读】AI新突破！DeepSeek-OCR以像素处理文本，压缩率小于1/10，基准测试领跑。开源一夜4.4k星，Karpathy技痒难耐，展望视觉输入的通用性。

DeepSeek再次让全世界大吃一惊！

他们最新成果DeepSeek-OCR，从根本上改变了游戏规则——

文本并非通用的输入。反而，视觉将取而代之！

此外，在光学文字识别OCR任务上，DeepSeek-OCR模型名副其实，堪称工程学的巅峰之作——

在单卡A100-40G上，可达每秒约2500 Token，跑得飞快。

在保持97% OCR准确率的前提下，可将视觉上下文压缩至原来的1/20，常规使用下压缩比也能轻松小于1/10。

在OmniDocBench基准测试中，使用更少的视觉Token，即可超越GOT-OCR2.0和MinerU2.0的表现。

到底效果多惊艳？

一整页密密麻麻的文本，被压成仅仅100个视觉Token，在 OmniDocBench上实现最多60倍压缩！

DeepSeek-OCR简直把文字变成了像素点，就像把一本100页的书压缩成一张照片，AI依然能读懂它。

参数少、压缩率高、速度快、涵盖100种语言……DeepSeek-OCR全都要。

不仅理论价值大，实用性还很高强，好评如潮：

Github开源项目DeepSeek-OCR，一夜收获4.4k星：

DeepSeek-OCR用事实证明，实体页面（如缩微胶片、书籍）才是训练AI模型的更优数据源——而非低质量的互联网文本。

「骨子里的计算机视觉研究者」、特斯拉前AI总监、OpenAI创始团队成员Karpathy，难掩欣喜，力挺DeepSeek新模型。

Karpathy

技痒难耐，早已受不了分词器

Karpathy相当喜欢。

但更有趣的部分在于，对于大语言模型来说，像素输入是否优于文本输入？在输入端，文本Token会不会是一种既浪费又糟糕透顶的方式？

DeepSeek-OCR在动摇「文本作为AI的核心地位」，而视觉或将再次成为主流！

Karpathy自称「骨子里搞计算机视觉」，只是暂时混迹在自然语言处理圈，自然对上述问题尤其感兴趣。

或许，大语言模型的所有输入都只应该是图像，这才更有道理。就算你手头是纯文本输入，可能也最好先把它渲染成图像再喂给模型：

更高的信息压缩率 => 更短的上下文窗口，更高的效率。
信息流的通用性显著增强 => 不再局限于文本，还可以处理粗体、彩色文本乃至任意图像。
输入现在可以轻松地、默认地采用双向注意力机制处理，而不再是自回归注意力——这可要强大得多。
干掉（输入端的）分词器tokenizer！！

特别是最后一点，Karpathy忍了很久了，早就多次吐槽分词器太烂了——

分词器丑陋、独立，并非端到端的环节。

它「引入」了Unicode和字节编码的所有糟粕，背负着沉重的历史包袱，还带来了安全/越狱风险（比如连续字节问题）。

它让两个肉眼看起来一模一样的字符，在网络内部却变成了两个风马牛不相及的 Token。

一个微笑的表情符号，，而不是一个带有像素、承载着丰富信息、能从中进行迁移学习的真实笑脸。

总之，Karpathy认为，分词器「恶行累累」，这次必须赶走分词器。

此外，他展望了视觉成为通用输入的前景：

OCR只是「视觉到文本」众多落地应用中的一种。而「文本到文本」的任务也可以被改造为「视觉到文本」的任务，反之则不行。

所以，或许用户输入的消息是图像，但解码器（即「智能助理」的响应）依然是文本。

至于，到底如何真实地输出像素或者说你是否真想这么做，就远没那么明朗了。

现在，Karpathy表示，他要拼命忍住，不去搞一个只用图像输入的「nanochat」的支线任务。

为什么图像输入对AI更友好？

有网友问：

首先，为什么图像能轻易获得双向注意力，而文本却不能？

另外，虽然图像没有像文本那样的「Token化」过程，但我们把输入图像切割成一个个图像块（patches）时，难道得到的不是类似，甚至可能更不理想的结果吗？

对此，Karpathy表示，原则上可以，只不过为了追求效率，文本（的生成）通常采用简单的自回归方式进行训练。

可以设想存在一个中间训练阶段，利用双向注意力机制，微调条件信息，比如那些我们不需要去预测或生成的代表用户消息的Token。

原则上，你可以对整个上下文窗口进行双向编码，而目的仅仅是为了预测下一个 Token。但这么做的代价就是无法并行化训练。

至于第二个问题，他认为，严格来说与「像素 vs. Token」无关。其核心更在于，像素通常是被编码的（encoded），而 Token则是被解码的（decoded）。

至于，Karpathy的「nanochat支线任务论」，网友并不认可：

DeepSeekOCR证明这不仅关乎压缩——更是语义的蒸馏。

分词器时代意味着识字，像素时代则关乎感知。

Nanochat不该是支线任务，它是「光学认知」的开端。

帖子下面，网友恳求Karpathy：快搞个只用图像输入的「nanochat」吧！

Karpathy的前老板、「好兄弟」马斯克给出了更科幻的猜想：

长期来看，AI模型超过99%的输入和输出将是光子。

马斯克让Grok估计了一下已知宇宙的光子总量：

1=估算可观测宇宙中的光子总数是一项复杂的工作，但我们可以基于几个主要组成部分得出一个大致数字：宇宙微波背景辐射（CMB）产生的光子、星光光子，以及其他一些微弱来源。

宇宙微波背景辐射（CMB）占据主导地位，使得可观测宇宙中的光子总数约为1.5×10⁸⁹个。这个数字是一个粗略估算，具体数值取决于可观测宇宙的精确体积以及其他微小来源的贡献，但整体上与宇宙学计算结果相符。

1.5×10⁸⁹！没有其他东西能达到这种规模。这就是马斯克的逻辑。

毕竟，人类就是通用「光学计算系统」——眼睛来认识世界的：

作者介绍

这次论文一共有三位作者：Haoran Wei、Yaofeng Sun、Yukun Li。

论文地址：https://github.com/deepseek-ai/DeepSeek-OCR/blob/main/DeepSeek_OCR_paper.pdf

论文一作Haoran Wei，此前也是GitHub 7.9k星爆火项目GOT-OCR2.0，即「General OCR Theory: Towards OCR-2.0 via a Unified End-to-end Model」的一作。

项目地址：https://github.com/Ucas-HaoranWei/GOT-OCR2.0

论文地址：https://arxiv.org/abs/2409.01704

Yaofeng Sun是DeepSeek的软件工程师，于2023年加入幻方AI/DeepSeek。

谷歌学术显示，他参与了DeepSeek-r1、DeepSeek-v3、DeepSeek-vl2、DeepSeek-v2、DeepSeek-vl、DeepSeek LLM等模型的研究。

据悉，他本科毕业于北京大学图灵班（Turing Class）计算机科学专业。

他代表北京大学参赛，获得ACM-ICPC 亚洲区域赛金牌（2017–2019），获奖赛区包括：EC 总决赛 2017、青岛 2017、西安 2017、上海 2019、南京 2019。

之前，他获得全国信息学奥林匹克竞赛（NOI）金牌（2015、2016）。

Yukun Li也是高产的AI从业者——

2020年至今，引用数已过9千；参与过DeepSeek-v3、DeepSeek-vl2、DeepSeek-v2、DeepSeek-Coder、DeepSeek-MoE、DeepSeek LLM等项目研究。

我们一起见证他们带来的AI新突破，一起见证开源AI的崛起！

参考资料：

https://x.com/karpathy/status/1980397031542989305

https://x.com/teortaxesTex/status/198023417556435798

https://www.linkedin.com/in/sunyaofeng/

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

内存通胀“终结者”？谷歌公开最新极限压缩算法

钛媒体APP 2026-03-26 14:33:20
0 跟贴 0
CVPR 2026 | BiMotion：用 B 样条曲线重新定义 3D 角色运动生成

机器之心Pro 2026-03-26 11:42:56
0 跟贴 0

Kimi新架构让马斯克叹服！17岁高中生作者一战成名

量子位 2026-03-17 14:47:09
139 跟贴 139

微信放开入口，我用鹅厂“官配虾”试着跑了“一人公司”

智东西 2026-03-25 21:57:56
13 跟贴 13
我们生活的宇宙是否是真实存在的？

老友地理 2026-03-23 10:42:30
1 跟贴 1

哈勃极深场，哈勃拍摄的照片让你感受到宇宙的浩瀚

世界地理小知识 2026-03-25 16:35:55
1 跟贴 1

2.5亿像素，巡天望远镜给宇宙拍全身照

蒋院长讲航天 2026-03-24 18:03:57
0 跟贴 0
AI写CUDA算子国产芯片不行？上交方法直线拉升，DeepSeek也适用

机器之心Pro 2026-03-26 15:59:24
0 跟贴 0

宇宙到底是什么炸了？99%的人从没搞懂真正的大爆炸

黑科技在身边 2026-03-24 17:20:03
7 跟贴 7
一天蒸发6200亿！谷歌算法黑科技击溃存储股，华尔街痛批市场“不懂技术”

每日经济新闻 2026-03-26 19:00:13
0 跟贴 0
一篇论文引发存储芯片股暴跌，Google 的「DeepSeek 时刻」来了？

爱范儿 2026-03-26 13:50:20
0 跟贴 0
Harness发威！Claude被榨干的秘诀公开了

智东西 2026-03-26 20:57:04
0 跟贴 0
52天75次发布，A司这场“产品大爆炸”太猛烈了

钛媒体APP 2026-03-26 19:50:22
0 跟贴 0
英伟达23人梦之队，让AI用7天干翻了自己的GPU专家

钛媒体APP 2026-03-26 17:44:44
0 跟贴 0
宇宙一共有多少维度？

盼叶落归根 2026-03-24 06:10:10
0 跟贴 0
OFC光通信大会上的路线之争，到底在争什么？

华尔街见闻官方 2026-03-24 23:34:43
0 跟贴 0
深度长文：按照量子力学，一个人穿墙而过的概率有多大？

宇宙时空 2026-03-26 19:15:05
0 跟贴 0
从太阳系到可观测宇宙，930亿光年之外，就是宇宙的边界吗？

老友地理 2026-03-25 11:43:16
1 跟贴 1
《挽救计划》热映，温暖内核打破科幻类型片边界

北青网-北京青年报 2026-03-26 17:47:52
0 跟贴 0
光速作为宇宙最快速度，是否可能被突破

万物研究 2026-03-25 11:43:33
3 跟贴 3
很多初中生应该都知道这个实验吧，你们知道原理吗？

复旦张军平 2026-03-26 19:39:17
0 跟贴 0
宇宙闪烁请注意：知道你胸肌大但是不用了！

时间巡查 2026-03-26 01:38:23
4 跟贴 4
Arm下场造芯：首推AGI CPU直供Meta，万亿算力市场的“越顶传球”

钛媒体APP 2026-03-25 14:04:07
0 跟贴 0
美国科技巨头在社交媒体成瘾案中被认定需担责

参考消息 2026-03-26 20:46:37
0 跟贴 0
于东来从30岁开始吃药，拍CT上百次，身体出什么问题都不足为奇，哪天说不定没了就没了

新闻晨报 2026-03-25 21:24:37
4527 跟贴 4527
纽约时报：许多美国官员从未去过中国应该去中国看看

环球网资讯 2026-03-26 00:05:09
1926 跟贴 1926
这篇年终述职报告太权威了！超强文本讽刺又好笑

刚芦雪 2026-03-26 03:44:06
0 跟贴 0
看似站在悬崖边，实则是块大石头！这视觉错觉骗了多少人

卧龙没烦恼 2026-03-22 17:06:49
129 跟贴 129
那些视觉错位大赏，让人一眼看错的瞬间！

米高没搞笑 2026-03-23 10:03:13
1 跟贴 1
清华、西交联合开源发布Cheers : 更简洁、更高效统一多模态路线

机器之心Pro 2026-03-26 14:20:02
0 跟贴 0
中原消费金融为催收“买”借款人手机号码三大运营商均中标或涉买卖个人信息惹争议

信网 2026-03-26 19:12:37
2 跟贴 2
千万粉丝大V，微博账号被禁止关注

第一财经资讯 2026-03-26 12:19:47
51 跟贴 51
从工业体系看常规战争中东大为何难被战胜的底层逻辑

Boba奔波儿灞 2026-03-26 01:16:42
0 跟贴 0
卫星图像揭开真相伊朗打击行动的真实战果！

拜永元 2026-03-26 04:24:47
0 跟贴 0
Sora落幕，Seedance、可灵走上分岔路

钛媒体APP 2026-03-26 17:44:11
0 跟贴 0
直面Seedance2.0挑战？快手可灵想要年内收入翻倍

华尔街见闻官方 2026-03-25 21:00:18
0 跟贴 0
“车还在厂里，配置已过时” 问界M7激光雷达换代，新车主都成了“大冤种”？

新浪财经 2026-03-26 17:06:06
10 跟贴 10
收评：沪指跌1.09% 全市场成交额不足2万亿元

证券时报 2026-03-26 15:22:10
437 跟贴 437
10元/斤，最近这一口“鲜货”正肥！杭州一摊主：一天上百斤不够卖

环球网资讯 2026-03-25 13:22:33
432 跟贴 432
破解反手数值怪！全面解析高效对抗策略

胶片记忆馆 2026-03-24 10:11:50
0 跟贴 0

大唐名将李靖，陈塘关李靖，托塔天王李靖，到底是不是同一个人？

大唐名将李靖，陈塘关李靖，托塔天王李靖，到底是不是同一个人？

铭记历史呀

2026-03-26 11:16:18

最大的访问团，国王携家族三百多名成员访问中国，在中国生活至今

最大的访问团，国王携家族三百多名成员访问中国，在中国生活至今

丞丞故事汇

2026-03-26 11:34:08

越南5年免签新政策4.1开始实施

越南5年免签新政策4.1开始实施

创作者_cLg1

2026-03-26 09:42:32

美军中央司令部：美军“亚伯拉罕·林肯”号航空母舰“在区域海域航行期间，继续针对伊朗境内的军事目标开展作战行动”

美军中央司令部：美军“亚伯拉罕·林肯”号航空母舰“在区域海域航行期间，继续针对伊朗境内的军事目标开展作战行动”

潇湘晨报

2026-03-26 10:55:27

一审重判整整17年，柯文哲当庭最后一搏，藏着赖清德最担心的结局

一审重判整整17年，柯文哲当庭最后一搏，藏着赖清德最担心的结局

李健政观察

2026-03-26 18:16:56

事情闹大了，日本内阁连发公告，中国的态度，告诉了世界一个事实

事情闹大了，日本内阁连发公告，中国的态度，告诉了世界一个事实

荣亭小吏

2026-03-26 11:23:02

重磅官宣！伦敦世乒赛国乒再添1人直通，8人名单正式出炉

重磅官宣！伦敦世乒赛国乒再添1人直通，8人名单正式出炉

宝哥精彩赛事

2026-03-26 18:04:15

五代最弱小的政权，全国仅3万兵甲，靠着打家劫舍度过40年和平

五代最弱小的政权，全国仅3万兵甲，靠着打家劫舍度过40年和平

疯狂的小历史

2026-03-26 13:06:45

46岁童蕾近况曝光，带女儿回农村住平房，亲自种菜日子十分勤俭

46岁童蕾近况曝光，带女儿回农村住平房，亲自种菜日子十分勤俭

科学发掘

2026-03-26 17:46:48

延寿9年，心脏病风险降60%！悉尼大学最新：饮食、睡眠、运动最佳组合出炉，小改变也大有益

延寿9年，心脏病风险降60%！悉尼大学最新：饮食、睡眠、运动最佳组合出炉，小改变也大有益

医诺维

2026-03-24 17:02:18

女人偷吃后晚上跟丈夫同房是什么体验？这位46岁出轨女人说出答案

女人偷吃后晚上跟丈夫同房是什么体验？这位46岁出轨女人说出答案

混音情感

2026-03-26 14:25:07

没护照没签证，这只叫LV的猫天天跨国走私老鼠，两国海关都拿它没辙！

没护照没签证，这只叫LV的猫天天跨国走私老鼠，两国海关都拿它没辙！

英国那些事儿

2026-03-24 23:16:58

中国电信：全面转向token经营！

中国电信：全面转向token经营！

最通信

2026-03-25 20:45:14

余承东：问界M6 24小时订单突破60000台展车已到店

余承东：问界M6 24小时订单突破60000台展车已到店

CNMO科技

2026-03-24 17:14:29

伊朗微松口：特朗普女婿库什纳无法信任，但跟副总统万斯或许能谈

伊朗微松口：特朗普女婿库什纳无法信任，但跟副总统万斯或许能谈

阿龙聊军事

2026-03-26 20:41:08

又内讧，泰山队内部又出问题，惨败原因找到了，内部矛盾曝光

又内讧，泰山队内部又出问题，惨败原因找到了，内部矛盾曝光

体坛风之子

2026-03-26 04:30:03

张雪峰说得对！深圳社保就是淘汰本末倒置的!直接封神！

张雪峰说得对！深圳社保就是淘汰本末倒置的!直接封神！

烟浔渺渺

2026-03-26 17:07:45

赖昌星前妻近状曝光：拒绝政府安置，独居3000平老宅，只做一件事

赖昌星前妻近状曝光：拒绝政府安置，独居3000平老宅，只做一件事

芳芳历史烩

2026-03-23 03:53:23

笑掉大牙！伊朗高层当众互撕，吹破天的强硬，连军饷都发不出来

笑掉大牙！伊朗高层当众互撕，吹破天的强硬，连军饷都发不出来

老马拉车莫少装

2026-03-25 19:39:00

伊朗首都德黑兰遭空袭，多地传出爆炸声！伊朗武装部队向以色列发射新一轮导弹

伊朗首都德黑兰遭空袭，多地传出爆炸声！伊朗武装部队向以色列发射新一轮导弹

大象新闻

2026-03-26 20:45:02

AI产业主平台领航智能+时代

14821文章数 66721关注度

往期回顾全部

科技要闻

Meta高管狂分百亿期权，700名员工却下岗

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了，然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声！称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普？一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

本地

家居

旅游

教育

艺术

本地新闻

救命，这只酱板鸭已经在我手机复仇了一万遍

家居要闻

傍海而居静观蝴蝶海

旅游要闻

20元人民币背景观景台乱收费？景区通报：不存在封闭管控、强制收费等

教育要闻

来上课了——高考阅读难题大综合（细节+主旨+含义）（下）第1段

艺术要闻

哪一座桥不是风景？

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版