网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

DeepSeek又在放假搞事！58年前的算法解决一个大问题

2026-01-04 06:33:01　来源: 王煜全

北京举报

0

分享至

训练一个大模型要多久？

小模型几天，大模型几周，顶级模型可能要几个月。

现在想象一下：你的团队花了两周时间、烧掉几百万美元的算力，眼看模型快要训练完成，突然，原本应该不断降低的loss曲线开始暴涨，所有数据全部作废，一切从头再来。

2025年的最后一天，DeepSeek悄悄发了一篇论文《mHC: Manifold-Constrained Hyper-Connections》，解决了这个问题。

一个让工程师崩溃的bug

这篇论文一发布，海外AI圈就炸了。

Hugging Face上，mHC论文直接登上了 " Paper of the day"，获得73个专业点赞。

X上，AI研究者Alexander Doria的解读帖引发了大量转发。他写道：

"这实际上是一篇工程论文...论文的核心是'高效训练设计'，他们用混合精度策略最大化数值精度，用算子融合减少内存带宽瓶颈...整体非常优雅。"

Hugging Face Paper of the day

这篇论文到底解决了什么问题？为什么能引起这么大的关注？

故事要从去年说起。字节跳动提出了一种叫Hyper-Connections（HC）的新技术。

简单说，传统的AI模型像一条单行道，信息排队通过。

HC把它拓宽成了4条并行车道，让信息可以同时在多个"通道"里流动和交换。

效果非常惊艳：根据字节跳动的论文，训练速度最高提升1.8倍，在ARC-Challenge基准上提升了6分。

Hyper-Connections论文结果图（训练loss与ARC-Challenge表现）

全世界的AI团队都想用这个技术，但很快，大家发现了一个致命的问题：训练到12000步左右，模型会突然"发疯"。

代表AI错误率的loss曲线，本来稳步下降，突然毫无征兆地飙升。前面十几天的训练，全部白费。

更可怕的是，这个问题没有规律可循。有时候能撑过去，有时候撑不过去，工程师们只能碰运气。

3000倍 → 1.6倍

DeepSeek的工程师们研究后发现了问题所在：4条"车道"之间的信息交换，没有任何约束。

就像高速公路上的车可以随意变道，而且每次变道车的数量还会随机变化。

几十次变道之后，有的车道上挤了几千辆车，有的车道空无一车。系统必然崩溃。

在AI模型里，这个"变化"有多夸张？信号放大倍数最高达到3000倍。

DeepSeek的解决方案非常优雅：加一个数学约束，让每次"变道"后，总车数保持不变。

他们用的工具是一个1967年就有的老算法：Sinkhorn-Knopp。

这个算法能保证信息在通道之间流动时"守恒"，不会无限放大，也不会逐渐消失。

结果：信号放大倍数从3000倍降到1.6倍，训练过程稳定，不再随机崩盘。

额外的计算开销？ 仅6.7%，推理能力还额外提升了2%以上。

用一个58年前的老算法，解决了2025年最前沿的工程难题。

没有什么惊天动地的理论突破，都是工程师的智慧：找到问题的本质，用最简单的方法解决它。

研究，早已不在象牙塔里

看完这篇论文，相信你马上就会明白，为什么AI研究的一线早已不在象牙塔里。

你看这篇论文的内容：

大量篇幅在讲"Kernel Fusion"（算子融合）：怎么把多个计算合并成一个，减少内存读写

详细描述了"Recomputing"（重计算策略）：宁可重新算一遍，也不占用宝贵的显存

甚至专门讨论了"DualPipe Schedule"（流水线调度）：怎么让通信和计算同时进行，不浪费一秒钟

全是实打实的工程优化。

DeepSeek

DeepSeek这篇论文的核心贡献，就是发现了"训练会崩"这个实际问题，然后用一个58年前的老算法解决了它。

AI的"发动机"已经基本就绪了。

大模型的核心架构、训练方法、推理框架，都已经相当成熟。

接下来的竞争，不只是"谁能造出更大的发动机"，更是"谁能把发动机用得更好"。

而这种"用得更好"的优化，会发生在AI应用的很多环节：

怎么更好的使用AI大模型？
哪些场景中能发挥AI潜力？
怎么用更少的资源做更多的事？

这些问题，不需要你是数学天才，不需要你发明新理论。你只需要：发现真实的问题，找到解决它的方法。

这，就是大多数人的机会。

会"用"比会"造"更重要

吴恩达曾多次表达过类似观点，大意是：未来最值钱的能力，不是"懂AI原理"，是"会指挥AI干活"。

吴恩达（Andrew Ng）

这和很多人对AI的焦虑形成了鲜明对比：

有人担心："我不会写代码，是不是就被淘汰了？"

有人担心："我数学不好，是不是学不了AI？"

有人担心："我不是名校出身，是不是没机会？"

但现实是：真正稀缺的，是"能解决问题的人"。

我们之前也为大家介绍过，Gabriel Petersson高中辍学，用ChatGPT自学，现在在OpenAI做研究科学家。

一个20岁的中国大学生，靠AI编程工具做了个GitHub热榜第一的项目，拿到了心仪的实习offer。

他们的共同点就是用AI解决了真实的问题。

给下一代的机会

我们这代人，还在努力适应AI。但下一代，完全可以从小学会"和AI协作"。

就像DeepSeek的工程师们，没有从零发明了新理论，而是把已有的工具组合起来，解决了实际问题。

这种"解决问题"的能力，越早培养越好。

【前哨AI冬令营】专为8-16岁孩子设计

7天时间，让孩子亲手做出可上线的作品：

✅ 专属小游戏（卡牌游戏、闯关冒险游戏）

✅ 微信小程序（卡路里识别、饭店点餐小程序）

教孩子"AI的原理是什么"，更教孩子"怎么用AI解决问题"。

当DeepSeek的工程师用58年前的老算法解决最前沿的难题时，你的孩子也可以学会：用现有的工具，解决真实的问题。

和AI时代一起成长。

⏰ 名额有限，先到先得，扫码报名 ↓

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

36年卷积猜想被解决，华人唯一作者，AI或受益

机器之心Pro 2025-11-26 14:30:39
0 跟贴 0
给AI打个分，结果搞出17亿估值独角兽?

量子位 2026-01-07 17:28:01
0 跟贴 0

吴恩达公开信：2026年能实现AGI吗？六位专家说先解决这些问题

DeepTech深科技 2026-01-07 21:30:43
0 跟贴 0

清华00后揪出AI幻觉元凶：仅0.1%神经元，一按就老实

DeepTech深科技 2026-01-07 21:18:03
0 跟贴 0
首家央企AI独角兽浮出水面！背靠自研大模型，4家国家队资本背书

量子位 2026-01-07 15:27:30
4 跟贴 4

盖坤访谈：赢在判断与时机，可灵AI仍在全球市场加速前行

华尔街见闻官方 2026-01-07 21:35:10
0 跟贴 0

暴走2万步逛CES2026：9大方向最火，中企霸场，机器人全明星乱斗

智东西 2026-01-07 21:57:37
3 跟贴 3
这跟数学没多大关系啊，这是思维逻辑

喜蕃影视 2026-01-06 10:38:27
163 跟贴 163

数学真的是要靠天赋

嗷嗷爱影视 2026-01-03 08:19:04
110 跟贴 110
15%全量Attention！「RTPurbo」阿里Qwen3长文本推理5倍压缩方案

机器之心Pro 2025-12-23 12:52:34
0 跟贴 0
Bengio团队找到了一种超越Transformer的硬件对齐方案

机器之心Pro 2026-01-07 15:02:29
0 跟贴 0
五年级拉分题，没有一定数学功底，你不会做

郎老师趣味数学课堂 2026-01-07 16:36:26
0 跟贴 0
英伟达发布纯视觉自动驾驶模型！马斯克回应！一口气看完CES演讲

极客小冷 2026-01-06 17:12:24
817 跟贴 817
学霸思维训练：求三角形的面积

公考客栈店小二 2026-01-06 22:08:35
0 跟贴 0
小学数学分数应用题

天天数理学习分享 2026-01-04 10:19:07
4 跟贴 4
科学家研发大模型新框架，助力解决RISC-V软件生态瓶颈

DeepTech深科技 2025-10-12 19:05:00
0 跟贴 0
把命运交给算法，它推荐啥我就吃啥

午餐肉艺术家葛世贤 2026-01-06 00:00:00
5 跟贴 5
轻松学习数学，从基础开始！

痛苦难以释怀 2026-01-05 01:58:19
0 跟贴 0
小学数学数阵问题，2分钟教会你

郎老师趣味数学课堂 2026-01-05 07:41:09
0 跟贴 0
揭秘乘法尾数规律，让孩子爱上数学！

奥数轻松学 2026-01-07 16:18:16
3 跟贴 3
1040三年级思维训练:两数之和666，之差66，求这两个数各是多少

我服子佩 2026-01-04 19:54:12
1 跟贴 1
有人说这是五年级数学题，反正我不信，你们信吗

郎老师趣味数学课堂 2026-01-07 07:23:33
0 跟贴 0
期末六年级数学必考题：1分钟学明白

郎老师趣味数学课堂 2026-01-04 06:52:37
0 跟贴 0
女子放假回到家，弟弟的反应真的太真实了，网友：有个弟弟真好

童话鹤壁 2026-01-06 13:54:24
0 跟贴 0
三年级易错：家长因为这题找老师吵架却吵输了！

大力小学数学 2026-01-04 14:23:00
0 跟贴 0
1069一年级思维训练第8天:孩子试了好久没试出来，妈妈说了4个字

我服子佩 2026-01-07 13:09:48
1 跟贴 1
三亚一游客称被司机诱导就餐，4道海鲜1868元，职能部门：会积极处理

环球网资讯 2026-01-07 13:36:42
6828 跟贴 6828
1059一年级思维训练第4天:家长认为简单的题，班里只有2个同学做

我服子佩 2026-01-06 15:56:17
1 跟贴 1
「走向意识科学」读书会第十一讲暨收官圆桌讨论：量子、脑与意识

集智俱乐部 2026-01-07 19:15:39
0 跟贴 0
DeepSeek预测：2030年，200万的房还值多少钱？答案终于揭晓啦

巢客HOME 2026-01-07 00:05:03
0 跟贴 0
全国数学竞赛题：一点儿都不难，别想复杂了

郎老师趣味数学课堂 2026-01-07 06:58:36
0 跟贴 0
小学数学速算，掌握技巧只需要3秒

大力小学数学 2026-01-07 15:15:00
0 跟贴 0
五年级求阴影部分面积，学霸直接口算

大力小学数学 2026-01-05 14:00:00
0 跟贴 0
数学界的领军人物，年纪轻轻就有着异于常人的智力

影帝侠 2026-01-07 14:35:30
3 跟贴 3
儿子数学考了8分气坏爸爸，当儿子说出语文成绩那一刻，崩溃了

SMTOWN 2026-01-07 01:51:10
0 跟贴 0
90后王虹转专业破解108年数学难题，韦神弃2100万粉坐满三天讲台

星辰夜语 2026-01-07 21:46:13
0 跟贴 0
老婆和她弟俩打了二十年了，难得放假聚在一起又打起来了

音乐下午茶官方 2026-01-03 23:16:18
0 跟贴 0
上海市中考：填空题送分题，竟然还有人做错？

大力小学数学 2026-01-06 16:13:00
0 跟贴 0
愿意看的都是高智商人群

小新的视界 2026-01-06 04:58:02
0 跟贴 0
这年头数学不好，都讨不到老婆了

猫仔观影 2026-01-06 13:08:37
1 跟贴 1

日本梅毒泛滥、“神待少女” 丛生：百毒遍地，遥遥领先

日本梅毒泛滥、“神待少女” 丛生：百毒遍地，遥遥领先

半耳聆

2026-01-07 17:21:19

能否找回射门靴？哈兰德英超生涯从未连续4场0球0助攻

能否找回射门靴？哈兰德英超生涯从未连续4场0球0助攻

懂球帝

2026-01-08 01:34:19

002757，尾盘突然跳水！英伟达重大宣布，液冷产业迈入业绩兑现期

002757，尾盘突然跳水！英伟达重大宣布，液冷产业迈入业绩兑现期

数据宝

2026-01-07 18:33:35

最高9.8分，美剧史上的入门级Top.10，建议收藏

最高9.8分，美剧史上的入门级Top.10，建议收藏

来看美剧

2026-01-04 20:33:49

王石的体面，被田朴珺扯得干干净净

王石的体面，被田朴珺扯得干干净净

言叔财经视角

2026-01-05 13:50:10

陈芋汐在东方卫视跨年晚会被推到角落合影，到底谁尴尬了？

陈芋汐在东方卫视跨年晚会被推到角落合影，到底谁尴尬了？

罗纳尔说个球

2026-01-06 21:51:50

流落柬埔寨女网红毒品检测呈阳性，视频主页称“靠自己没用的”，家人赴柬，大使馆提醒

流落柬埔寨女网红毒品检测呈阳性，视频主页称“靠自己没用的”，家人赴柬，大使馆提醒

潇湘晨报

2026-01-06 17:20:18

霸王茶姬公布处理结果！女店员真容曝光人很漂亮，网友评论笑疯了

霸王茶姬公布处理结果！女店员真容曝光人很漂亮，网友评论笑疯了

奇思妙想草叶君

2026-01-08 00:52:01

河村勇辉，重返NBA

刺猬篮球

2026-01-08 00:04:42

哪些问题是靠非常规手段解决的？网友：公司强行要求出差能拒绝吗

哪些问题是靠非常规手段解决的？网友：公司强行要求出差能拒绝吗

带你感受人间冷暖

2026-01-02 00:05:17

马杜罗被捕现场细节流出：古巴硬汉贴身安保，战至最后尽忠职守

马杜罗被捕现场细节流出：古巴硬汉贴身安保，战至最后尽忠职守

装甲铲史官

2026-01-04 15:14:32

朴槿惠出狱生活：住1676平别墅，与小10岁律师为伴，如今生活安逸

朴槿惠出狱生活：住1676平别墅，与小10岁律师为伴，如今生活安逸

顾史

2026-01-07 20:10:11

纵览热点｜男子称被海南儋州一派出所民警辱骂“神经病”，派出所：是协管员，已对其批评教育

纵览热点｜男子称被海南儋州一派出所民警辱骂“神经病”，派出所：是协管员，已对其批评教育

纵览新闻

2026-01-07 19:51:04

海报｜“绿色消费20条”来了！与你我生活密切相关

海报｜“绿色消费20条”来了！与你我生活密切相关

新华社

2026-01-06 20:21:09

大批油轮冲出委内瑞拉港，美国根本拦不住！中国已发话，大戏开始

大批油轮冲出委内瑞拉港，美国根本拦不住！中国已发话，大戏开始

玉涵简书

2026-01-06 15:43:29

关晓彤再上热搜:未来请幸福是官宣分手？这状态看到了当年的杨幂

关晓彤再上热搜:未来请幸福是官宣分手？这状态看到了当年的杨幂

小杨侃事

2026-01-07 13:25:28

广东3消息！徐杰感冒仍封神，焦泊乔完美觉醒，崔永熙主动请战

广东3消息！徐杰感冒仍封神，焦泊乔完美觉醒，崔永熙主动请战

多特体育说

2026-01-08 00:41:30

别墅搜出23件国宝，全家集体失联！徐湖平案落幕，17年举报有结果

别墅搜出23件国宝，全家集体失联！徐湖平案落幕，17年举报有结果

诗意世界

2026-01-03 15:19:25

风向不对！网上现大量“美国只斩首，不伤平民”言论，值得警惕

风向不对！网上现大量“美国只斩首，不伤平民”言论，值得警惕

消失的电波

2026-01-06 14:11:46

勒布朗30+8+8湖人逆转鹈鹕3连胜，东契奇30+10墨菲42+5

勒布朗30+8+8湖人逆转鹈鹕3连胜，东契奇30+10墨菲42+5

湖人崛起

2026-01-07 11:26:01

王煜全带你一起看创新

976文章数 751关注度

往期回顾全部

科技要闻

精华！黄仁勋CES记者会：揭秘新款大杀器

头条要闻

美军扣押俄潜艇护航的油轮俄罗斯外交部回应

头条要闻

美军扣押俄潜艇护航的油轮俄罗斯外交部回应

体育要闻

卖水果、搬砖的小伙，与哈兰德争英超金靴

娱乐要闻

《马背摇篮》首播，革命的乐观主义故事

财经要闻

农大教授科普：无需过度担忧蔬菜农残

汽车要闻

燃油驾趣+智能电感双Buff 试驾全新奥迪Q5L

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

数码

本地

家居

手机

公开课

数码要闻

技嘉Z890主板适配英特尔新处理器，还展示256GB内存！

本地新闻

“闽东利剑·惠民安商”高效执行专项行动

家居要闻

宁静不单调恰到好处的美

手机要闻

曝Galaxy S26系列2月25日发布，不会涨价！

公开课

李玫瑾：为什么性格比能力更重要？

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版