网易首页 > 网易号 > 正文 申请入驻

“Token”必须死?

0
分享至

订阅 快刀财经 ▲ 做您的私人商学院


大语言模型范式能走到AGI吗?

作者:晓静

来源:腾讯科技(ID: qqtech )

“我语言的局限,即意味着我世界的局限。”( Die Grenzen meiner Sprache bedeuten die Grenzen meiner Welt. )

哲学家维特根斯坦在1921年写下这句话时,他谈论的是人类认知的边界。一百年后,这句话精确地描述了大语言模型面临的结构性困境,如果AI的“语言”就是离散token序列,那么它的“世界”永远被困在token能表达的范围内。

这也引出了一个老生常谈的问题:大语言模型范式能走到AGI(通用人工智能)吗?

2024年12月,OpenAI 前首席科学家Ilya Sutskever在NeurIPS发表主题演讲,他说“预训练即将终结”。2026年3月,图灵奖得主Yann LeCun离开Meta创办AMI Labs,直接宣判“大语言模型路线错了”。

两位深度学习殿堂级的大师,一位选择颠覆自己亲手开启的预训练时代,另一位选择继续践行自己坚守多年的世界模型路线,去赌“LLM的下一个时代”。

当然绝对不是当前的模型不好用或没有商业价值,大模型的用户数量及渗透率都在持续增长,产业价值会越来越大。但是从技术路径来看,他们要表达的是:这条路有一个结构性的天花板,这个天花板恰好卡在通往AGI(通用人工智能)的路上。

2026年5月,MIT何恺明团队和字节跳动Seed实验室几乎同时发布论文,给出了一个更明确的信号:语言生成的核心建模过程不必始终发生在离散token空间中,也可以转移到连续embedding或latent空间里完成,最后再映射回文本。

这是第一批来自工程实验的硬证据,逐token预测可能是通向AGI路上的一个局部最优解。但连续空间范式打开了另一条路,这条路的天花板也许更高。


▲图:美国国家人工智能科学院院士,麻省理工学院电气工程与计算机科学系副教授何恺明,图片由AI生成

01

天花板在哪?

维特根斯坦的话可以这样理解。

人类的离散语言不是思维的原生格式。大脑内部的认知活动是连续的、并行的、高维的。比如人类想到一个苹果时,激活的不是“苹果”两个字的token,而是一大片感觉皮层的连续活动模式,包括颜色、质感、重量、咬下去的声音。人之所以把这团连续体验压缩成“苹果”这个离散符号,纯粹是因为人类大脑的带宽逼你序列化。

人类语言是进化设计的有损压缩协议,它是跨脑传输的工程妥协。

我们目前用到的主流的商业化大模型产品,底层都是自回归架构(预测下一个token)。

自回归大模型做的事情是,在这个压缩协议的输出格式上建模。它无法理解“世界如何运作”,它了解的是“人类选择用什么符号序列来描述世界”。它们极其擅长模拟人类的语言行为,但模拟语言行为和理解世界之间,差着一个认识论的鸿沟。

比如身体感受,疼痛是怎样的;空间直觉,知道怎么接住球但无法描述如何接住的;因果干预的具身反馈,比如如果“我把这个椅子推倒会怎样”的直觉。这些隐藏在人类大脑中的“感觉”,从未被任何人类语言编码过。所以它们从未进入训练数据,在token序列上做任何建模,无论参数多大、数据多多,都触及不到这些维度。

这就是token范式的天花板。

02

“逃逸”实验

从token空间逃逸的第一批实验正在发生。

何恺明团队的ELF(Embedded Language Flows,嵌入式语言流)做了一件反直觉的事:把文字生成的全过程留在连续向量空间里完成,只在最后一步,真的只有最后一步,才把连续向量投影回人类可读的文字。它用Flow Matching(一种2022年由Yaron Lipman等人提出的连续正则化流框架)从噪声出发,沿学习到的速度场平滑演化到目标嵌入。32个采样步,生成质量超过离散模型用1024步的结果。训练数据约450亿token,只有主流方法的十分之一。


▲图:ELF仅用32步采样即超越MDLM、Duo等离散模型1024步的生成质量,且未使用蒸馏加速。模型参数105M,训练数据约为同类方法的十分之一

四天后发布的Cola DLM(字节Seed团队):先用Text VAE把语言压缩成更深层的语义潜空间,再在这个纯语义空间里用Flow Matching建模全局先验,最后才解码回文字。论文明确说:扩散过程做的是“潜在先验运输”,不是“token级别的观测恢复”。20亿参数,8个基准,与同体量自回归模型和已经scale到1000亿参数的LLaDA2.0严格对比,连续路线的scaling曲线是健康的。


▲图:Cola DLM 整体架构图

两篇论文的核心都在表达,token不是语言建模的必要条件。连续空间可以做得更好、更快、更省。


▲图:自回归模型逐token生成,每一步不可逆选择一个离散符号,已选token锁定后续所有可能性。


▲图:连续流模型从噪声出发,沿速度场平滑演化到目标嵌入,全程可逆可调,仅在终点映射回文字,ELF论文。

03

AI巨头也在质疑

“Tokenization”?

这两篇论文只是学术信号,科技巨头也在用真金白银下注。

Google是最早、也最坚定地走向“原生多模态统一”的巨头。Gemini的技术报告明确写道:它是“from the ground up”训练的多模态模型,“not by bolting a frozen vision encoder onto a text decoder”(不是把冻结的视觉编码器接到文本解码器上)。

文本、图像、音频、视频在同一个模型里交错训练,共享注意力层。这个设计哲学从2023年12月的Gemini 1.0延续到了2026年的3.1 Pro。2026年3月发布的Gemini Embedding 2把这件事推到了表征层面:一个embedding模型,原生接受文本、图像、文档、音频、视频输入,全部映射到同一个3072维向量空间。

Google在做的事情,本质上就是为所有模态建造一个统一的连续坐标系,模态之间的边界在这个坐标系里不存在。

OpenAI走了一条更曲折的路。GPT-4V时代的架构是拼接式的,由一个视觉编码器外挂到语言模型上,跨模态信息需要经过额外的投影层传递。GPT-5系列公开强化了多模态推理能力,但OpenAI并未披露足够细的架构信息。可以确定的是,OpenAI正在把文本、视觉、视频等能力更深地整合进核心模型体验;不能确定的是,它是否已经完成了统一Transformer层面的架构切换。

根据外媒报道Sora运营期间“被员工视作拖累核心算力的吞金兽”。OpenAI选择砍掉视频应用,把算力集中到GPT-5.5的Agent架构和Codex代码工具上。这也可以猜测:OpenAI认同多模态统一的方向,但在视频生成这个具体维度上暂时退场,等待更高效的架构方案成熟后重新进入。

字节跳动Seed团队在Cola DLM论文的最后一句话是“为离散文本与连续模态的统一建模指出了一条具体路径”。Seed团队透露视频生成模型Seedance系列已经在使用类似的连续潜空间架构,独特优势在于:它同时拥有抖音/TikTok级别的海量视频数据和前沿模型研究能力。如果连续统一空间确实是下一代架构的答案,字节是最有条件最先在工业规模验证它的公司。

Anthropic的选择是所有巨头中最独特的,它在刻意回避多模态生成。截至2026年5月,Claude没有原生图像生成能力,没有视频理解,没有音频处理。2026年4月发布的Claude Design生成的是结构化设计产出物,原型图、线框图、幻灯片,而不是像素级图像。

Anthropic把几乎所有资源压在文本推理和代码执行上。这个策略在商业上正在被验证:Claude Code年化收入25亿美元,2026年5月Anthropic隐含估值冲到1.2万亿美元(36氪报道),主要靠的是企业客户为推理和代码能力付费。但从范式演进的角度看,这是一个在积累技术债的选择。如果两到三年后竞争的核心转向“谁能在统一连续空间里同时理解和生成所有模态”,Anthropic就很被动。

在巨头之外,两个最值得关注的独立押注来自Ilya Sutskever和Yann LeCun。Sutskever创办的SSI(Safe Superintelligence)在2025年5月完成20亿美元融资,估值320亿美元——没有产品、没有论文、没有任何公开技术细节。投资人买的纯粹是他对“下一个范式”的判断力。他在NeurIPS 2024所说的“预训练即将终结”,指的是靠堆数据预测next token的方式已到收益递减阶段,下一步需要的是质变。

LeCun2026年3月离开工作超过十年的Meta,创办AMI Labs,融资10.3亿美元,估值35亿。他的JEPA路线和ELF/Cola DLM哲学相通,都是离开token空间、在连续表征空间建模,但方向不同。JEPA不追求生成逼真的输出,强调在抽象空间里预测事物演化的物理后果。

LeCun在5月的访谈中说:“自回归机制逐个预测token,本质是在字符级别做统计复现,不是在建模世界的因果规律。参数量的增加解决不了这个结构性缺陷。”他认为,生成只是模拟,预测才是理解。

04

如果token范式衰退,

谁会没有未来?

做视频tokenizer的公司首当其冲。VQ-VAE、MAGVIT、OmniTokenizer,这些工作的核心价值主张是“高质量视频离散编码”。英伟达的Cosmos Tokenizer、微软的VidTok,大厂也在竞争。如果语言生成都开始把核心计算迁移到连续空间,那么视频这类天然连续的数据,更没有理由被默认压成离散token序列。

真正的问题会变成:什么样的视觉表征既能高效压缩,又能保留足够的物理、时序和语义结构。

然后是“多模态”这个产品叙事本身。当所有模态共享一个连续空间时,“多模态能力”变成默认配置,不再是差异化卖点。就像今天没人把“支持中文和英文”当成一个AI产品的核心竞争力。做模态桥接和对齐的中间层产品也面临同样的问题——如果基础模型原生在统一空间运行,文本和视觉之间不存在需要被弥补的“鸿沟”,弥补鸿沟的生意就没有理由存在。

再往下游推一步,今天整个行业按 token 收费,是因为自回归模型的成本结构极其透明,输入输出的token数直接可以算出算力消耗。

但如果核心计算迁移到连续空间,扩散模型可能用固定步数生成任意长度文本,输出长度与计算量脱钩,“消耗了多少token”就不再是成本的真实度量。

只是,AI 的发展太快,衡量 AI商业价值的真正定价体系还没固定下来,下一个范式可能就会发生。而具体会是多快,没有人能够预测。

05

大语言模型能走到AGI吗?

回到开头的问题,大语言模型范式能走到AGI吗?

从token范式本身的结构来看,不能,它的训练信号有信息论上的硬上限。人类语言作为有损压缩协议,在编码时就不可逆地丢弃了世界的大量结构。在压缩产物上做任何建模,都还原不了被丢弃的维度。

但“杀死tokenization”也不等于到达AGI。ELF和Cola DLM证明了连续空间更高效、更优雅,但它们的训练数据仍然来自人类产出的内容,一个有损压缩后的世界。LeCun看到了这一层,所以他押注“能预测物理后果的世界模型”。Sutskever大概也看到了。

但这也许只是第一步,如果模型不再受困于人类语言的压缩格式时,它需要的新训练信号从哪里来?

答案大概不在更多的数据里,而在某种主动探索中——在世界中行动,承受后果,从反馈中学习。也是现在关注度十分高的RSI, AI 的递归自我改进(Recursive Self-Improvement)。这也将是我们在后面的文章中,继续讨论的主题。


THE END


快刀财经

快刀斩乱麻,财经见真章。专注互联网以及互联网正在影响的其他行业。微观角度展现宏大商业叙事,做您的私人商学院。致力于为用户提供营销策划、社群电商、创业投资和知识充电服务。

投稿、转载、内容合作,请添加微信ikuaidao

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
3-0横扫晋级!中国女乒29岁王牌闪耀:3战零封对手,会师孙颖莎

3-0横扫晋级!中国女乒29岁王牌闪耀:3战零封对手,会师孙颖莎

李喜林篮球绝杀
2026-07-04 10:08:13
历史上听来很扯却真实存在的五件事,一个比一个离谱,但全是真的

历史上听来很扯却真实存在的五件事,一个比一个离谱,但全是真的

长风文史
2026-07-04 22:06:18
曼联最终仍将溢价买后腰,愿为1人破例!揭秘放弃抢M费安德森原因

曼联最终仍将溢价买后腰,愿为1人破例!揭秘放弃抢M费安德森原因

罗米的曼联博客
2026-07-05 07:40:24
俄42%炼油产能被打停,CS|S公布俄乌两军真实伤亡数字

俄42%炼油产能被打停,CS|S公布俄乌两军真实伤亡数字

史政先锋
2026-07-04 18:10:45
车企总经理直播被骂到哽咽下播

车企总经理直播被骂到哽咽下播

电动知家
2026-07-03 22:56:55
一家3代短命!蔡磊处境曝光,斥资续命收效甚微,儿子也成牺牲品

一家3代短命!蔡磊处境曝光,斥资续命收效甚微,儿子也成牺牲品

周哥一影视
2026-07-04 20:40:16
49岁舒淇终于松口!为怀娃折腾9年遍体鳞伤,冯德伦:这辈欠她。

49岁舒淇终于松口!为怀娃折腾9年遍体鳞伤,冯德伦:这辈欠她。

TVB的四小花
2026-07-04 20:54:47
俄罗斯宣布:芬兰已成核打击目标!

俄罗斯宣布:芬兰已成核打击目标!

看看新闻Knews
2026-07-03 13:09:37
阿媒:阿根廷战埃及首发或换三处,梅西锋线搭档再成疑问

阿媒:阿根廷战埃及首发或换三处,梅西锋线搭档再成疑问

懂球帝
2026-07-05 06:40:06
“全是活蛆”“吃完才发现”!市民称在龙岗一餐厅吃出异物,涉事门店已全额退款并补偿300元

“全是活蛆”“吃完才发现”!市民称在龙岗一餐厅吃出异物,涉事门店已全额退款并补偿300元

深圳晚报
2026-07-04 20:17:35
39岁女子扮男子炸伤受乌克兰制裁富豪,国际刑警组织发出红色通缉

39岁女子扮男子炸伤受乌克兰制裁富豪,国际刑警组织发出红色通缉

红星新闻
2026-07-04 15:53:16
基辅遭饱和打击:锆石穿透核掩体,瑟尔斯基与泽连斯基公开决裂?

基辅遭饱和打击:锆石穿透核掩体,瑟尔斯基与泽连斯基公开决裂?

料峭春寒洞
2026-07-04 03:06:03
美媒评级30队今夏运作:76人爵士评A并列第一 湖勇B-火箭B开拓者D

美媒评级30队今夏运作:76人爵士评A并列第一 湖勇B-火箭B开拓者D

罗说NBA
2026-07-05 06:23:56
美方再点名台湾芯片,赖清德不敢吭声

美方再点名台湾芯片,赖清德不敢吭声

环球时报国际
2026-07-05 08:04:19
高温下,哈梅内伊葬礼开始:6000个喷头洒水降温,5000万个面包,2500辆救护车

高温下,哈梅内伊葬礼开始:6000个喷头洒水降温,5000万个面包,2500辆救护车

红星新闻
2026-07-04 12:52:12
13轮不败!中超:西海岸2-1十人海港,万涛连吹4球+张源染红

13轮不败!中超:西海岸2-1十人海港,万涛连吹4球+张源染红

乒烧泳球
2026-07-04 21:27:30
NBA球员总薪资榜单!!前十出炉!

NBA球员总薪资榜单!!前十出炉!

柚子说球
2026-07-05 07:34:52
WTT美国大满贯:王曼昱/蒯曼夺冠!决赛3-1胜张本美和/早田希娜

WTT美国大满贯:王曼昱/蒯曼夺冠!决赛3-1胜张本美和/早田希娜

全言作品
2026-07-05 07:12:24
还没服务过任何人,就先摆好了当老爷的姿态!

还没服务过任何人,就先摆好了当老爷的姿态!

胖胖说他不胖
2026-07-03 15:39:28
71年毛主席南巡返京突停丰台,留李德生密令:速调38军1个师进京

71年毛主席南巡返京突停丰台,留李德生密令:速调38军1个师进京

小豫讲故事
2026-07-05 00:35:05
2026-07-05 09:08:49
快刀财经 incentive-icons
快刀财经
商业快媒体,思维孵化器。
5183文章数 20268关注度
往期回顾 全部

科技要闻

韬定律论文V2版,充工程细节和实测数据

头条要闻

浙江商人用23年从身无分文穷小子 变佛得角总理座上宾

头条要闻

浙江商人用23年从身无分文穷小子 变佛得角总理座上宾

体育要闻

揭法国锋线最大优势 有人比姆巴佩还快?

娱乐要闻

白鹿打戏抠图惹非议 连累丞磊遭扒皮

财经要闻

韩国股市杠杆失控:450亿美元资金狂飙

汽车要闻

方程豹钛9内饰曝光 用上了长联屏设计/下半年上市

态度原创

本地
时尚
教育
艺术
公开课

本地新闻

国内足球之旅?这座小城给你高分答案

伊姐周六热推:电视剧《画梦录》;电视剧《灿如繁星》......

教育要闻

河南高考历史类420分,想学动物医学和中医针灸按摩,这样报志愿

艺术要闻

八大山人迷之印章 你认得几个?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版