训练一个大模型要多久?
小模型几天,大模型几周,顶级模型可能要几个月。
现在想象一下:你的团队花了两周时间、烧掉几百万美元的算力,眼看模型快要训练完成,突然,原本应该不断降低的loss曲线开始暴涨,所有数据全部作废,一切从头再来。
2025年的最后一天,DeepSeek悄悄发了一篇论文《mHC: Manifold-Constrained Hyper-Connections》,解决了这个问题。
一个让工程师崩溃的bug
这篇论文一发布,海外AI圈就炸了。
Hugging Face上,mHC论文直接登上了 " Paper of the day",获得73个专业点赞。
X上,AI研究者Alexander Doria的解读帖引发了大量转发。他写道:
"这实际上是一篇工程论文...论文的核心是'高效训练设计',他们用混合精度策略最大化数值精度,用算子融合减少内存带宽瓶颈...整体非常优雅。"
![]()
Hugging Face Paper of the day
这篇论文到底解决了什么问题?为什么能引起这么大的关注?
故事要从去年说起。字节跳动提出了一种叫Hyper-Connections(HC)的新技术。
简单说,传统的AI模型像一条单行道,信息排队通过。
HC把它拓宽成了4条并行车道,让信息可以同时在多个"通道"里流动和交换。
效果非常惊艳:根据字节跳动的论文,训练速度最高提升1.8倍,在ARC-Challenge基准上提升了6分。
![]()
Hyper-Connections论文结果图(训练loss与ARC-Challenge表现)
全世界的AI团队都想用这个技术,但很快,大家发现了一个致命的问题:训练到12000步左右,模型会突然"发疯"。
代表AI错误率的loss曲线,本来稳步下降,突然毫无征兆地飙升。前面十几天的训练,全部白费。
更可怕的是,这个问题没有规律可循。有时候能撑过去,有时候撑不过去,工程师们只能碰运气。
3000倍 → 1.6倍
DeepSeek的工程师们研究后发现了问题所在:4条"车道"之间的信息交换,没有任何约束。
就像高速公路上的车可以随意变道,而且每次变道车的数量还会随机变化。
几十次变道之后,有的车道上挤了几千辆车,有的车道空无一车。系统必然崩溃。
在AI模型里,这个"变化"有多夸张?信号放大倍数最高达到3000倍。
DeepSeek的解决方案非常优雅:加一个数学约束,让每次"变道"后,总车数保持不变。
他们用的工具是一个1967年就有的老算法:Sinkhorn-Knopp。
这个算法能保证信息在通道之间流动时"守恒",不会无限放大,也不会逐渐消失。
结果:信号放大倍数从3000倍降到1.6倍,训练过程稳定,不再随机崩盘。
额外的计算开销? 仅6.7%,推理能力还额外提升了2%以上。
用一个58年前的老算法,解决了2025年最前沿的工程难题。
没有什么惊天动地的理论突破,都是工程师的智慧:找到问题的本质,用最简单的方法解决它。
研究,早已不在象牙塔里
看完这篇论文,相信你马上就会明白,为什么AI研究的一线早已不在象牙塔里。
你看这篇论文的内容:
大量篇幅在讲"Kernel Fusion"(算子融合):怎么把多个计算合并成一个,减少内存读写
详细描述了"Recomputing"(重计算策略):宁可重新算一遍,也不占用宝贵的显存
甚至专门讨论了"DualPipe Schedule"(流水线调度):怎么让通信和计算同时进行,不浪费一秒钟
全是实打实的工程优化。
![]()
DeepSeek
DeepSeek这篇论文的核心贡献,就是发现了"训练会崩"这个实际问题,然后用一个58年前的老算法解决了它。
AI的"发动机"已经基本就绪了。
大模型的核心架构、训练方法、推理框架,都已经相当成熟。
接下来的竞争,不只是"谁能造出更大的发动机",更是"谁能把发动机用得更好"。
而这种"用得更好"的优化,会发生在AI应用的很多环节:
怎么更好的使用AI大模型?
哪些场景中能发挥AI潜力?
怎么用更少的资源做更多的事?
这些问题,不需要你是数学天才,不需要你发明新理论。你只需要:发现真实的问题,找到解决它的方法。
这,就是大多数人的机会。
会"用"比会"造"更重要
吴恩达曾多次表达过类似观点,大意是:未来最值钱的能力,不是"懂AI原理",是"会指挥AI干活"。
![]()
吴恩达(Andrew Ng)
这和很多人对AI的焦虑形成了鲜明对比:
有人担心:"我不会写代码,是不是就被淘汰了?"
有人担心:"我数学不好,是不是学不了AI?"
有人担心:"我不是名校出身,是不是没机会?"
但现实是:真正稀缺的,是"能解决问题的人"。
我们之前也为大家介绍过,Gabriel Petersson高中辍学,用ChatGPT自学,现在在OpenAI做研究科学家。
一个20岁的中国大学生,靠AI编程工具做了个GitHub热榜第一的项目,拿到了心仪的实习offer。
他们的共同点就是用AI解决了真实的问题。
给下一代的机会
我们这代人,还在努力适应AI。但下一代,完全可以从小学会"和AI协作"。
就像DeepSeek的工程师们,没有从零发明了新理论,而是把已有的工具组合起来,解决了实际问题。
这种"解决问题"的能力,越早培养越好。
【前哨AI冬令营】专为8-16岁孩子设计
7天时间,让孩子亲手做出可上线的作品:
✅ 专属小游戏(卡牌游戏、闯关冒险游戏)
✅ 微信小程序(卡路里识别、饭店点餐小程序)
教孩子"AI的原理是什么",更教孩子"怎么用AI解决问题"。
当DeepSeek的工程师用58年前的老算法解决最前沿的难题时,你的孩子也可以学会:用现有的工具,解决真实的问题。
和AI时代一起成长。
⏰ 名额有限,先到先得,扫码报名 ↓
![]()
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.