网易首页 > 网易号 > 正文 申请入驻

DeepSeek OCR论文引爆网络!Andrej Karpathy:,我很喜欢;马斯克:未来99%都是光子

0
分享至


刚刚,AI大神Andrej Karpathy表示非常喜欢DeepSeek OCR 论文,原话:

我相当喜欢新的DeepSeek-OCR论文。它是一个很好的OCR模型(可能比dots稍微差一点),是的,数据收集等等,但无论如何都不重要。对我来说更有趣的部分(尤其是作为一个以计算机视觉为核心,暂时伪装成自然语言的人)是像素是否比文本更适合作为LLM的输入。文本标记是否浪费且糟糕,作为输入。

还不知什么情况的看我这篇文章

Karpathy认为,抛开模型本身不谈,deepseek这篇论文引出了一个更值得深思的问题:对于LLM来说,像素是否是比文本更优越的输入形式?文本Token是否既浪费又糟糕?

他进一步设想,或许所有LLM的输入都只应该是图像。即便是纯文本内容,也应该先渲染成图片再输入给模型

Karpathy给出了支持这一构想的四大核心理由:

1. 更高的信息压缩效率

将文本渲染成图像,可以实现更高的信息压缩,这意味着更短的上下文窗口和更高的运行效率

2. 更通用的信息流

像素是一种远比文本更通用的信息流。它不仅能表示纯文本,还能轻松捕捉粗体、彩色文本,甚至是任意的图表和照片

3. 默认实现强大的双向注意力

像素化的输入可以很自然、很轻松地默认使用双向注意力进行处理,这种处理方式比自回归注意力更为强大

4. 彻底淘汰Tokenizer

Karpathy毫不掩饰自己对Tokenizer的嫌弃。他认为Tokenizer是一个丑陋、独立、非端到端的阶段。它引入了Unicode和字节编码的所有丑陋之处,继承了大量历史包袱,并带来了安全和越狱风险(例如连续字节问题)

他举例说,Tokenizer会导致两个在人眼看来完全相同的字符,在网络内部被表示为两个完全不同的Token。一个笑脸emoji,在模型看来只是一个奇怪的Token,而不是一个由像素构成的、真实的笑脸,这导致模型无法利用其视觉信息带来的迁移学习优势。Tokenizer必须消失,他强调

Karpathy总结道,OCR只是众多视觉到文本(vision -> text)任务中的一种。而传统的文本到文本(text -> text)任务,完全可以被重构成视觉到文本任务,反之则不行

他设想的未来交互模式可能是:用户的输入(Message)是图像,而解码器(Assistant的响应)的输出仍然是文本。因为如何真实地输出像素,或者是否有必要这样做,目前还不明确

核心争议:双向注意力与图像分块

对于Karpathy的观点,AI学者Yoav Goldberg提出了两个疑问:


1.为什么说图像能轻松获得双向注意力,而文本不能?

2.虽然没有了Tokenization,但将输入图像切分成图块(Patches),难道不是一种类似且可能更丑陋的处理方式吗?

Karpathy对此进行了解释。

他回应说,原则上没有任何东西阻止文本使用双向注意力。但为了效率,文本通常都是以自回归的方式进行训练的。他设想,可以在训练中期加入一个微调阶段,用双向注意力来处理作为条件的信息(比如用户的输入消息,因为这些Token不需要模型去生成)。但他不确定在实践中是否有人这样做。理论上,为了预测下一个Token,甚至可以对整个上下文窗口进行双向编码,但这将导致训练无法并行化

最后他补充道,或许这个方面(双向注意力)严格来说并非像素与Token的本质区别,更多是像素通常被编码(encoded),而Token通常被解码(decoded)(借用原始Transformer论文的术语)

马斯克:未来99%是光子

在这场讨论的最后,Elon Musk也现身评论区,并给出了一个更具未来感的判断:


从长远来看,AI模型超过99%的输入和输出都将是光子。没有其他任何东西可以规模化

马斯克的这条评论并非随口一说。他进一步补充了一段堪称硬核的宇宙学科普,来解释为什么他认为“光子”是终极的规模化方案

简单来说,宇宙中绝大多数的粒子都是光子

而这些光子最主要的来源,是宇宙微波背景(CMB)。根据测算,CMB的光子密度约为每立方厘米410个。将这个密度乘以可观测宇宙的巨大体积(半径约465亿光年),可以得出仅CMB贡献的光子数量就达到了一个惊人的数字:约1.5 x 10⁸⁹个

相比之下,所有恒星发出的光子(星光)以及其他来源(如中微子背景、黑洞辐射等)贡献的数量,则完全可以忽略不计

这背后揭示的物理事实是:光子在数量级上拥有无与伦比的优势。这或许就是马斯克认为AI的未来输入输出将由光子主宰的底层逻辑

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
一生好酒又好色,却有惊世才华,留下无数经典作品让后世膜拜

一生好酒又好色,却有惊世才华,留下无数经典作品让后世膜拜

林雁飞
2025-12-17 13:53:59
13分4板11助!能执教哈登真好,阿特金森动情发声,还提到詹姆斯

13分4板11助!能执教哈登真好,阿特金森动情发声,还提到詹姆斯

巴叔GO聊体育
2026-02-12 12:42:18
上海爷叔7根金条+19万元现金被“蚂蚁搬家”!保姆一个举动引起警方注意,落网后辩称是老人送的!

上海爷叔7根金条+19万元现金被“蚂蚁搬家”!保姆一个举动引起警方注意,落网后辩称是老人送的!

新民晚报
2026-02-12 20:00:02
央视重磅发声!人民日报点名封杀!5位网红彻底凉凉,大快人心

央视重磅发声!人民日报点名封杀!5位网红彻底凉凉,大快人心

匹夫来搞笑
2026-02-12 20:08:11
心梗与做家务有关?医生提醒:60岁以后,做家务时要注意这几点

心梗与做家务有关?医生提醒:60岁以后,做家务时要注意这几点

医学科普汇
2026-02-11 06:30:11
《生命树》结局:杀多杰,将贺清源爆头,孟德辉背后之人是汪谨梅

《生命树》结局:杀多杰,将贺清源爆头,孟德辉背后之人是汪谨梅

宇林网络
2026-02-12 06:40:09
34+16+8!疯了,河村勇辉杀疯了......

34+16+8!疯了,河村勇辉杀疯了......

篮球实战宝典
2026-02-12 16:26:28
北京:研究放宽医保个人账户使用范围,研究参保职工可使用医保个人账户资金购买符合条件的商业健康保险产品

北京:研究放宽医保个人账户使用范围,研究参保职工可使用医保个人账户资金购买符合条件的商业健康保险产品

北京商报
2026-02-12 19:54:15
郭德纲一家参加婚礼!11岁郭汾阳胖嘟嘟被宠上天,超黏哥哥郭麒麟

郭德纲一家参加婚礼!11岁郭汾阳胖嘟嘟被宠上天,超黏哥哥郭麒麟

阿废冷眼观察所
2026-02-12 08:13:41
巴萨球迷意难平!不止因为0-4马竞,更多在于以下五点!

巴萨球迷意难平!不止因为0-4马竞,更多在于以下五点!

吴紒爱体育
2026-02-13 08:42:27
俄军突袭乌克兰,泽连斯基被美国坑惨了?

俄军突袭乌克兰,泽连斯基被美国坑惨了?

贺文萍
2026-02-13 08:30:12
金价2月12日:大家提前做好准备,明后两天,金价可能更大变盘?

金价2月12日:大家提前做好准备,明后两天,金价可能更大变盘?

白浅娱乐聊
2026-02-12 19:40:40
场均21分,被联盟硬捧进全明星!作为建队基石,球队该考虑交易你

场均21分,被联盟硬捧进全明星!作为建队基石,球队该考虑交易你

老梁体育漫谈
2026-02-13 00:49:34
人生建议:多去做复利的事情。

人生建议:多去做复利的事情。

木言观
2026-02-10 20:19:33
孕妇占了我靠窗座位,我花1900升到头等舱,13分钟后听到哭声

孕妇占了我靠窗座位,我花1900升到头等舱,13分钟后听到哭声

普陀动物世界
2026-02-13 08:11:27
长江和记:邀请巴拿马共和国进行磋商,就巴拿马港口问题积极寻求解决方案

长江和记:邀请巴拿马共和国进行磋商,就巴拿马港口问题积极寻求解决方案

界面新闻
2026-02-12 18:41:33
维汉通婚博主遭遇死亡威胁:这已经不是观点冲突,而是犯罪!

维汉通婚博主遭遇死亡威胁:这已经不是观点冲突,而是犯罪!

西域都护
2026-01-26 15:00:19
国家金融监管总局:2025年四季度末商业银行不良贷款余额3.5万亿元 较上季末减少241亿元

国家金融监管总局:2025年四季度末商业银行不良贷款余额3.5万亿元 较上季末减少241亿元

财联社
2026-02-12 19:12:12
梅西妻子安东内拉:以前我很害怕举重,因为觉得会让自己变壮

梅西妻子安东内拉:以前我很害怕举重,因为觉得会让自己变壮

懂球帝
2026-02-12 10:05:09
上海一“熊孩子”对电子元件好奇,狂拆小区16栋楼门禁收集电路板!被家长送到派出所写检查

上海一“熊孩子”对电子元件好奇,狂拆小区16栋楼门禁收集电路板!被家长送到派出所写检查

大象新闻
2026-02-12 17:45:06
2026-02-13 09:28:49
AI寒武纪 incentive-icons
AI寒武纪
专注于人工智能,科技领域
1033文章数 396关注度
往期回顾 全部

科技要闻

DeepSeek更新后被吐槽变冷变傻,业内解读

头条要闻

媒体:"反华先锋"遭受毁灭性打击 立总统依然冥顽不灵

头条要闻

媒体:"反华先锋"遭受毁灭性打击 立总统依然冥顽不灵

体育要闻

31岁首次参加冬奥,10年前她是个水管工

娱乐要闻

《惊蛰无声》违规抢占排片遭影院控诉

财经要闻

华莱士母公司退市 疯狂扩张下的食安隐忧

汽车要闻

开212 T01柴油版去穿越 连牧马人都跟不上

态度原创

健康
亲子
数码
教育
房产

转头就晕的耳石症,能开车上班吗?

亲子要闻

孩子最渴望听到父母说的五句话

数码要闻

内存、SSD、CPU都在涨价!杨元庆:今年联想PC销量可能略微下降 但平均价格上升

教育要闻

低分逆袭!江苏科技大学苏州理工学院录取门槛低

房产要闻

999元开线上免税店?海南爆出免税大骗局,多人已被抓!

无障碍浏览 进入关怀版