字节跳动vsDeepSeek，中国AI的开年双王炸|算法|信号|推理|神经网络|知名企业|正式版模型

字节跳动vsDeepSeek，中国AI的开年双王炸

2026-01-05 23:35:44　来源: 速途网

贵州举报

分享至

作者｜周炜皓

编辑｜闫俊豪

2025年12月30日，字节跳动Seed团队发布《Dynamic Large Concept Models》论文，挑战了“Token是计算的原子单位”这一根深蒂固的假设，提出计算应当是分层、动态和抽象的。

一天之后，12月31日，DeepSeek提交了一篇有梁文锋署名的论文，论文题目是《mHC：流形约束超连接》，这篇论文直指大模型训练中的“信号爆炸”问题，用mHC架构为打造超大模型搭建起“脚手架”。

从打破“如何想得更快更深”的推理瓶颈，到解决“如何长得更大更稳”的现实困境，字节跳动和DeepSeek团队分别从两个方向，揭开了未来AI发展的图景一隅。

让AI学会“速读”与“深思”

2011年，诺贝尔奖得主丹尼尔·卡尼曼在《思考，快与慢》中提出了System 1（快思考）和System 2（慢思考）的双系统理论，常被用来类比AI的推理模式。

现有的 Transformer 模型，无论规模多大，本质上都在执行System 1式的直觉反应，基于统计规律快速预测下一个词，缺乏System 2所具备的深思熟虑、规划和概念抽象能力。字节跳动团队则在论文中指出，语言模型不应受限于其输入形式，而应具备在更高维度的“概念空间”进行操作的能力。

举个例子，人类在理解“中华人民共和国”这个词时，大脑激活的不仅仅是七个字的字面意义，而是一个包含政治、经济、文化和历史背景的语义网络。DLCM 正是试图在神经网络中构建这种“概念”实体。

目前的 AI 模型存在一个通病，无论是处理无意义的虚词，比如“的”、“是”，还是处理复杂的逻辑难题，消耗的计算资源是一样的。这不仅效率低下，也限制了模型处理复杂任务的能力。DLCM通过引入“动态概念”机制，让 AI 具备了类似人类的“速读”和“慢思考”能力。

DLCM架构概述

这套机制将处理过程分为两步，首先，模型不再逐字逐句看书，而是自动识别语义，将“今天天气不错”这样简单的一串词瞬间打包成一个“概念”略过，不费脑力。其次，当遇到“相对论推导”这样的硬骨头时，模型会停下来，在压缩后的“概念空间”里调动深层算力进行缜密推理。

用更容易理解的话说，过去AI就像个死板的经理，无论是审批买文具的 5 元发票，还是审批5个亿的投资项目，都要花1个小时去审核。而引入DLCM后，这个经理就有了抓大放小的能力，审批文具发票只花1秒钟，把节省下来的时间和精力，全部用来仔细研究那个5亿的投资项目。

把好钢用在了刀刃上，比起普通AI，DLCM在处理烧脑的逻辑推理题时更聪明，推理计算量减少了约34%，处理多步逻辑推理任务时，准确率反而平均提升了2.69%。对于拥有亿级用户的字节跳动来说，这意味着可以用更低的芯片成本，提供更聪明、反应更快的 AI 服务。

“音量守恒”魔咒

“信号爆炸”，是过去大模型训练中的“地雷”。一旦踩中，不管你花了多少钱进行训练，模型都可能瞬间崩溃，前功尽弃。

为了理解 DeepSeek 这项mHC技术的价值，我们可以把训练大模型想象成一场几百人参与的“传话游戏”。

在这个游戏中，“人”就是神经网络的层，“话”就是数据传输的信号或特征信息。在最早的深度网络中，几百人排成一列传话。如果每个人都只靠“听和说”，传到第100个人时，消息往往已经面目全非或者变得极其夸张。

这就是早期深层网络训练困难的原因。过去，ResNet的解决方案是制定规则，让每个人在传话的同时，必须把上一给人给你的“原话”写在小纸条上，原封不动地递给下一个人。即使某个人脑子短路了，下一个人至少还能收到那张“小纸条”，保证了最基础的信息不会丢，这就是恒等映射。

但问题在于，这是一条“单行道”，随着模型越来越大，这张“小纸条”上写的字越来越多，想在上面塞进更多的逻辑、语法和知识，变得越来越困难。

为了解决“单行道”拥挤的问题，字节跳动等研究者想出了一个办法，从过去的一列队伍改成多排几列，并允许这几列队伍之间互相交流。新的问题出现了，由于没有制定严格的“音量规则”，大家因为能互相交流变得非常兴奋。

第一列的人喊了一嗓子，第二列的人觉得很重要，于是拿个大喇叭复述，第三列的人听到了，又把声音放大几倍传回去。就这么一团乱麻传到最后，声音被放大几千倍，全是噪音，根本听不清原本的消息，导致训练直接崩溃，这就是HC导致的大模型训练的困境。

结果表明，mHC 在损失和梯度范数方面都表现出更高的稳定性

在这个背景下，DeepSeek的研究员意识到，多列队伍是好主意，但必须治理“噪音爆炸”。于是他们引入了数学上的流形约束，依然是多列队伍并行，依然允许互相交流，但每个人面前放了一个分贝仪，如果你想听其他列的消息，可以，但你从他们那里接收的“总音量”必须严格等于1。

你想多听第一列的人在说什么，就得捂住另一只耳朵少听其他列里的人说话，如果你要往后面传话，你的声音也必须是1分贝。这样的好处在于，不管队伍排多长，不管大家怎么互相传八卦，整个房间的总音量始终控制在一个合理的范围内。

这就是mHC最关键的作用，将深层网络的信号增益从3000倍压制到1.6倍左右，实现了3个数量级的稳定性提升。DeepSeek 利用 Sinkhorn-Knopp 算法强行“熨平”了所有的信号波动，无论模型有多大，内部结构都稳如泰山。

这项技术以仅增加 6.7% 训练时间的微小代价，换来了极度的稳定性。

从“恐惧”到“贪婪”

这两篇论文发布后，市场的反应也值得关注。

回想一年前的2025年1月27日，DeepSeek发布初代R1模型，全球资本市场曾陷入“算力通缩”的恐慌。当时，华尔街担心中国厂商极高的算法效率会大幅减少对GPU的需求，导致英伟达股价单日暴跌17%，市值蒸发近5900亿美元。

然而，2026 年1月2日，面对mHC和DLCM这两项进一步大幅降低算力成本、提升模型效率的“王炸”级技术，资本市场却表现出截然不同的态度。在两篇论文发布后的首个交易日，英伟达股价并未因“需求减少”的逻辑而下跌，反而逆势上扬1.26%，收于188.85 美元。

这种反差背后，是“杰文斯悖论”在发挥作用。早在工业革命时代，这位英国经济学家就发现，当技术进步提高了使用资源的效率，但成本降低导致需求增加，会令资源消耗的速度不减反增。

比起“DeepSeek时刻”那会儿，市场担心效率提升会导致显卡需求下降，现在的投资者们想明白了一点，效率提升以后，还可以把AI塞进手机、眼镜和汽车里，不仅不会少买，反而需要建设更庞大的推理集群来服务数十亿用户。

字节跳动的DLCM通过降低34%的推理成本，为AI落地应用扫清了障碍，DeepSeek的mHC则保证了未来更大规模模型的诞生，这两者叠加，AI的蛋糕被做得更大了。

2026年开年的这两篇论文，不仅是字节跳动和DeepSeek的技术秀，更是中国AI产业在高端芯片受限背景下走出的一条“不对称竞争”之路。如果说过去两年大家还在比拼谁的显卡更多，那么从现在开始，比赛进入了比拼谁的脑子更快的新阶段。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手机 / 数码

房产 / 家居

字节跳动vsDeepSeek，中国AI的开年双王炸

豪掷世界第一"球" 杨元庆亮出联想AI护城河

中方被问是否计划采取行动帮助马杜罗夫妇 外交部回应

中方被问是否计划采取行动帮助马杜罗夫妇 外交部回应

卖水果、搬砖的小伙，与哈兰德争英超金靴

2026年央视春晚彩排：沈腾确定回归

农大教授科普：无需过度担忧蔬菜农残

蔚来2025百万台收官 一场迟到的自我修复

态度原创

云游内蒙｜在黄河转身处，遇见不一样的鄂尔多斯

海珠双冠王！中交天翠以强兑现力+生活温度，筑就长期主义产品

消息称三星2月25日发布Galaxy S26系列手机

这些新疗法，让化疗不再那么痛苦

中方被问是否计划采取行动帮助马杜罗夫妇外交部回应

中方被问是否计划采取行动帮助马杜罗夫妇外交部回应

蔚来2025百万台收官一场迟到的自我修复