网易首页 > 网易号 > 正文 申请入驻

字节跳动vsDeepSeek,中国AI的开年双王炸

0
分享至



作者|周炜皓

编辑|闫俊豪

2025年12月30日,字节跳动Seed团队发布《Dynamic Large Concept Models》论文,挑战了“Token是计算的原子单位”这一根深蒂固的假设,提出计算应当是分层、动态和抽象的

一天之后,12月31日,DeepSeek提交了一篇有梁文锋署名的论文,论文题目是《mHC:流形约束超连接》,这篇论文直指大模型训练中的“信号爆炸”问题,用mHC架构为打造超大模型搭建起“脚手架”

从打破“如何想得更快更深”的推理瓶颈,到解决“如何长得更大更稳”的现实困境,字节跳动和DeepSeek团队分别从两个方向,揭开了未来AI发展的图景一隅。

让AI学会“速读”与“深思”

2011年,诺贝尔奖得主丹尼尔·卡尼曼在《思考,快与慢》中提出了System 1(快思考)和System 2(慢思考)的双系统理论,常被用来类比AI的推理模式。

现有的 Transformer 模型,无论规模多大,本质上都在执行System 1式的直觉反应,基于统计规律快速预测下一个词,缺乏System 2所具备的深思熟虑、规划和概念抽象能力。字节跳动团队则在论文中指出,语言模型不应受限于其输入形式,而应具备在更高维度的“概念空间”进行操作的能力

举个例子,人类在理解“中华人民共和国”这个词时,大脑激活的不仅仅是七个字的字面意义,而是一个包含政治、经济、文化和历史背景的语义网络。DLCM 正是试图在神经网络中构建这种“概念”实体。

目前的 AI 模型存在一个通病,无论是处理无意义的虚词,比如“的”、“是”,还是处理复杂的逻辑难题,消耗的计算资源是一样的。这不仅效率低下,也限制了模型处理复杂任务的能力。DLCM通过引入“动态概念”机制,让 AI 具备了类似人类的“速读”和“慢思考”能力



DLCM架构概述

这套机制将处理过程分为两步,首先,模型不再逐字逐句看书,而是自动识别语义,将“今天天气不错”这样简单的一串词瞬间打包成一个“概念”略过,不费脑力。其次,当遇到“相对论推导”这样的硬骨头时,模型会停下来,在压缩后的“概念空间”里调动深层算力进行缜密推理。

用更容易理解的话说,过去AI就像个死板的经理,无论是审批买文具的 5 元发票,还是审批5个亿的投资项目,都要花1个小时去审核。而引入DLCM后,这个经理就有了抓大放小的能力,审批文具发票只花1秒钟,把节省下来的时间和精力,全部用来仔细研究那个5亿的投资项目。

把好钢用在了刀刃上,比起普通AI,DLCM在处理烧脑的逻辑推理题时更聪明,推理计算量减少了约34%,处理多步逻辑推理任务时,准确率反而平均提升了2.69%。对于拥有亿级用户的字节跳动来说,这意味着可以用更低的芯片成本,提供更聪明、反应更快的 AI 服务。

“音量守恒”魔咒

“信号爆炸”,是过去大模型训练中的“地雷”。一旦踩中,不管你花了多少钱进行训练,模型都可能瞬间崩溃,前功尽弃。

为了理解 DeepSeek 这项mHC技术的价值,我们可以把训练大模型想象成一场几百人参与的“传话游戏”。

在这个游戏中,“人”就是神经网络的层,“话”就是数据传输的信号或特征信息。在最早的深度网络中,几百人排成一列传话。如果每个人都只靠“听和说”,传到第100个人时,消息往往已经面目全非或者变得极其夸张。

这就是早期深层网络训练困难的原因。过去,ResNet的解决方案是制定规则,让每个人在传话的同时,必须把上一给人给你的“原话”写在小纸条上,原封不动地递给下一个人。即使某个人脑子短路了,下一个人至少还能收到那张“小纸条”,保证了最基础的信息不会丢,这就是恒等映射。

但问题在于,这是一条“单行道”,随着模型越来越大,这张“小纸条”上写的字越来越多,想在上面塞进更多的逻辑、语法和知识,变得越来越困难。

为了解决“单行道”拥挤的问题,字节跳动等研究者想出了一个办法,从过去的一列队伍改成多排几列,并允许这几列队伍之间互相交流。新的问题出现了,由于没有制定严格的“音量规则”,大家因为能互相交流变得非常兴奋。

第一列的人喊了一嗓子,第二列的人觉得很重要,于是拿个大喇叭复述,第三列的人听到了,又把声音放大几倍传回去。就这么一团乱麻传到最后,声音被放大几千倍,全是噪音,根本听不清原本的消息,导致训练直接崩溃,这就是HC导致的大模型训练的困境。



结果表明,mHC 在损失和梯度范数方面都表现出更高的稳定性

在这个背景下,DeepSeek的研究员意识到,多列队伍是好主意,但必须治理“噪音爆炸”。于是他们引入了数学上的流形约束,依然是多列队伍并行,依然允许互相交流,但每个人面前放了一个分贝仪,如果你想听其他列的消息,可以,但你从他们那里接收的“总音量”必须严格等于1。

你想多听第一列的人在说什么,就得捂住另一只耳朵少听其他列里的人说话,如果你要往后面传话,你的声音也必须是1分贝。这样的好处在于,不管队伍排多长,不管大家怎么互相传八卦,整个房间的总音量始终控制在一个合理的范围内。

这就是mHC最关键的作用,将深层网络的信号增益从3000倍压制到1.6倍左右,实现了3个数量级的稳定性提升。DeepSeek 利用 Sinkhorn-Knopp 算法强行“熨平”了所有的信号波动,无论模型有多大,内部结构都稳如泰山

这项技术以仅增加 6.7% 训练时间的微小代价,换来了极度的稳定性。

从“恐惧”到“贪婪”

这两篇论文发布后,市场的反应也值得关注。

回想一年前的2025年1月27日,DeepSeek发布初代R1模型,全球资本市场曾陷入“算力通缩”的恐慌。当时,华尔街担心中国厂商极高的算法效率会大幅减少对GPU的需求,导致英伟达股价单日暴跌17%,市值蒸发近5900亿美元。

然而,2026 年1月2日,面对mHC和DLCM这两项进一步大幅降低算力成本、提升模型效率的“王炸”级技术,资本市场却表现出截然不同的态度。在两篇论文发布后的首个交易日,英伟达股价并未因“需求减少”的逻辑而下跌,反而逆势上扬1.26%,收于188.85 美元

这种反差背后,是“杰文斯悖论”在发挥作用。早在工业革命时代,这位英国经济学家就发现,当技术进步提高了使用资源的效率,但成本降低导致需求增加,会令资源消耗的速度不减反增。

比起“DeepSeek时刻”那会儿,市场担心效率提升会导致显卡需求下降,现在的投资者们想明白了一点,效率提升以后,还可以把AI塞进手机、眼镜和汽车里,不仅不会少买,反而需要建设更庞大的推理集群来服务数十亿用户。

字节跳动的DLCM通过降低34%的推理成本,为AI落地应用扫清了障碍,DeepSeek的mHC则保证了未来更大规模模型的诞生,这两者叠加,AI的蛋糕被做得更大了。

2026年开年的这两篇论文,不仅是字节跳动和DeepSeek的技术秀,更是中国AI产业在高端芯片受限背景下走出的一条“不对称竞争”之路。如果说过去两年大家还在比拼谁的显卡更多,那么从现在开始,比赛进入了比拼谁的脑子更快的新阶段。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
广东3消息!朱芳雨正式上诉,徐杰脚踝伤势加重,奎因官方喜讯

广东3消息!朱芳雨正式上诉,徐杰脚踝伤势加重,奎因官方喜讯

多特体育说
2026-01-06 22:43:17
弗莱彻:还没看前队友在群里的聊天,我可能会暂时远离那个群

弗莱彻:还没看前队友在群里的聊天,我可能会暂时远离那个群

懂球帝
2026-01-07 16:25:15
朝鲜谁都不服,却主动将三位中国人写进教科书,还为其树立了铜像

朝鲜谁都不服,却主动将三位中国人写进教科书,还为其树立了铜像

云霄纪史观
2025-12-27 15:49:05
深圳技术大学迎来新任校长!

深圳技术大学迎来新任校长!

南方都市报
2026-01-07 12:15:07
在初创公司上班是一种什么体验?网友:三个月老板成了我的下属

在初创公司上班是一种什么体验?网友:三个月老板成了我的下属

夜深爱杂谈
2025-11-21 20:35:17
佘诗曼陈自瑶同框才知:会打扮和不会打扮的女人差距真的太大了

佘诗曼陈自瑶同框才知:会打扮和不会打扮的女人差距真的太大了

孤酒老巷QA
2026-01-07 13:59:37
韩国大胆提议:建设首尔至北京高铁,但有一个条件,中方须先答应

韩国大胆提议:建设首尔至北京高铁,但有一个条件,中方须先答应

科学发掘
2026-01-06 10:23:28
在寿宴上,舅舅当众羞辱我爸,我却笑着拨通他单位领导的电话

在寿宴上,舅舅当众羞辱我爸,我却笑着拨通他单位领导的电话

红豆讲堂
2026-01-04 11:22:27
甄嬛垂暮之年细思极恐,原来她信任的盟友端妃,竟是一个漫长圈套

甄嬛垂暮之年细思极恐,原来她信任的盟友端妃,竟是一个漫长圈套

卡西莫多的故事
2026-01-06 11:05:29
你见过最牛的临场反应是啥?网友:这个好感动啊,这么好的同学

你见过最牛的临场反应是啥?网友:这个好感动啊,这么好的同学

带你感受人间冷暖
2026-01-01 00:10:10
官媒定调,楼市逻辑已经彻底变了

官媒定调,楼市逻辑已经彻底变了

大川东山再起
2026-01-07 15:58:41
几乎全是假货!利润高达2400%,咋消费者还前赴后继争相购买?

几乎全是假货!利润高达2400%,咋消费者还前赴后继争相购买?

奇思妙想草叶君
2026-01-05 23:13:15
中国股市炒股其实很简单:如果本金有20W,建议死啃520均线战法!

中国股市炒股其实很简单:如果本金有20W,建议死啃520均线战法!

股经纵横谈
2026-01-07 11:45:59
乌军短促突击新战术,无人机炸弹很凶残,俄第136摩步旅旅长死亡

乌军短促突击新战术,无人机炸弹很凶残,俄第136摩步旅旅长死亡

鹰眼Defence
2026-01-06 16:36:02
08年章含之逝世,临终前留下遗言,洪晃因何说:妈妈是个聪明人?

08年章含之逝世,临终前留下遗言,洪晃因何说:妈妈是个聪明人?

雍亲王府
2026-01-07 08:20:03
大布让父母亲向妻子道歉,贝嫂含蓄回应:我们没有什么好抱歉的

大布让父母亲向妻子道歉,贝嫂含蓄回应:我们没有什么好抱歉的

小书生吃瓜
2026-01-03 16:58:09
笑岔气了!果然断句是中国人一生的宿敌,只能说中国文化博大精深

笑岔气了!果然断句是中国人一生的宿敌,只能说中国文化博大精深

夜深爱杂谈
2025-12-19 16:39:58
谁教会了毛泽东打仗?毛泽东认为有3个“老师”,第一个是蒋介石

谁教会了毛泽东打仗?毛泽东认为有3个“老师”,第一个是蒋介石

浩舞默画
2026-01-07 09:47:10
陕西一老汉,把西凤酒灌入茅台瓶,拿去鉴定没想到被行家说是真品

陕西一老汉,把西凤酒灌入茅台瓶,拿去鉴定没想到被行家说是真品

涛哥美食汇
2026-01-06 09:01:22
55岁宣萱罕见露面,嘴巴实在是太大了,笑起来和大猩猩似的

55岁宣萱罕见露面,嘴巴实在是太大了,笑起来和大猩猩似的

阿废冷眼观察所
2026-01-07 02:17:42
2026-01-07 16:40:49
速途网 incentive-icons
速途网
互联网科技资讯
2279文章数 11426关注度
往期回顾 全部

科技要闻

豪掷世界第一"球" 杨元庆亮出联想AI护城河

头条要闻

中方被问是否计划采取行动帮助马杜罗夫妇 外交部回应

头条要闻

中方被问是否计划采取行动帮助马杜罗夫妇 外交部回应

体育要闻

卖水果、搬砖的小伙,与哈兰德争英超金靴

娱乐要闻

2026年央视春晚彩排:沈腾确定回归

财经要闻

农大教授科普:无需过度担忧蔬菜农残

汽车要闻

蔚来2025百万台收官 一场迟到的自我修复

态度原创

本地
房产
手机
健康
公开课

本地新闻

云游内蒙|在黄河转身处,遇见不一样的鄂尔多斯

房产要闻

海珠双冠王!中交天翠以强兑现力+生活温度,筑就长期主义产品

手机要闻

消息称三星2月25日发布Galaxy S26系列手机

这些新疗法,让化疗不再那么痛苦

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版