网易首页 > 网易号 > 正文 申请入驻

DeepSeek又在放假搞事!58年前的算法解决一个大问题

0
分享至

训练一个大模型要多久?

小模型几天,大模型几周,顶级模型可能要几个月。

现在想象一下:你的团队花了两周时间、烧掉几百万美元的算力,眼看模型快要训练完成,突然,原本应该不断降低的loss曲线开始暴涨,所有数据全部作废,一切从头再来。

2025年的最后一天,DeepSeek悄悄发了一篇论文《mHC: Manifold-Constrained Hyper-Connections》,解决了这个问题。

一个让工程师崩溃的bug

这篇论文一发布,海外AI圈就炸了。

Hugging Face上,mHC论文直接登上了 " Paper of the day",获得73个专业点赞。

X上,AI研究者Alexander Doria的解读帖引发了大量转发。他写道:

"这实际上是一篇工程论文...论文的核心是'高效训练设计',他们用混合精度策略最大化数值精度,用算子融合减少内存带宽瓶颈...整体非常优雅。"



Hugging Face Paper of the day

这篇论文到底解决了什么问题?为什么能引起这么大的关注?

故事要从去年说起。字节跳动提出了一种叫Hyper-Connections(HC)的新技术。

简单说,传统的AI模型像一条单行道,信息排队通过。

HC把它拓宽成了4条并行车道,让信息可以同时在多个"通道"里流动和交换。

效果非常惊艳:根据字节跳动的论文,训练速度最高提升1.8倍,在ARC-Challenge基准上提升了6分。


Hyper-Connections论文结果图(训练loss与ARC-Challenge表现)

全世界的AI团队都想用这个技术,但很快,大家发现了一个致命的问题:训练到12000步左右,模型会突然"发疯"。

代表AI错误率的loss曲线,本来稳步下降,突然毫无征兆地飙升。前面十几天的训练,全部白费。

更可怕的是,这个问题没有规律可循。有时候能撑过去,有时候撑不过去,工程师们只能碰运气。

3000倍 → 1.6倍

DeepSeek的工程师们研究后发现了问题所在:4条"车道"之间的信息交换,没有任何约束。

就像高速公路上的车可以随意变道,而且每次变道车的数量还会随机变化。

几十次变道之后,有的车道上挤了几千辆车,有的车道空无一车。系统必然崩溃。

在AI模型里,这个"变化"有多夸张?信号放大倍数最高达到3000倍。

DeepSeek的解决方案非常优雅:加一个数学约束,让每次"变道"后,总车数保持不变。

他们用的工具是一个1967年就有的老算法:Sinkhorn-Knopp。

这个算法能保证信息在通道之间流动时"守恒",不会无限放大,也不会逐渐消失。

结果:信号放大倍数从3000倍降到1.6倍,训练过程稳定,不再随机崩盘。

额外的计算开销? 仅6.7%,推理能力还额外提升了2%以上。

用一个58年前的老算法,解决了2025年最前沿的工程难题。

没有什么惊天动地的理论突破,都是工程师的智慧:找到问题的本质,用最简单的方法解决它。

研究,早已不在象牙塔里

看完这篇论文,相信你马上就会明白,为什么AI研究的一线早已不在象牙塔里。

你看这篇论文的内容:

大量篇幅在讲"Kernel Fusion"(算子融合):怎么把多个计算合并成一个,减少内存读写

详细描述了"Recomputing"(重计算策略):宁可重新算一遍,也不占用宝贵的显存

甚至专门讨论了"DualPipe Schedule"(流水线调度):怎么让通信和计算同时进行,不浪费一秒钟

全是实打实的工程优化


DeepSeek

DeepSeek这篇论文的核心贡献,就是发现了"训练会崩"这个实际问题,然后用一个58年前的老算法解决了它。

AI的"发动机"已经基本就绪了。

大模型的核心架构、训练方法、推理框架,都已经相当成熟。

接下来的竞争,不只是"谁能造出更大的发动机",更是"谁能把发动机用得更好"。

而这种"用得更好"的优化,会发生在AI应用的很多环节

  • 怎么更好的使用AI大模型?

  • 哪些场景中能发挥AI潜力?

  • 怎么用更少的资源做更多的事?

这些问题,不需要你是数学天才,不需要你发明新理论。你只需要:发现真实的问题,找到解决它的方法。

这,就是大多数人的机会。

会"用"比会"造"更重要

吴恩达曾多次表达过类似观点,大意是:未来最值钱的能力,不是"懂AI原理",是"会指挥AI干活"



吴恩达(Andrew Ng)

这和很多人对AI的焦虑形成了鲜明对比:

有人担心:"我不会写代码,是不是就被淘汰了?"

有人担心:"我数学不好,是不是学不了AI?"

有人担心:"我不是名校出身,是不是没机会?"

但现实是:真正稀缺的,是"能解决问题的人"。

我们之前也为大家介绍过,Gabriel Petersson高中辍学,用ChatGPT自学,现在在OpenAI做研究科学家。

一个20岁的中国大学生,靠AI编程工具做了个GitHub热榜第一的项目,拿到了心仪的实习offer。

他们的共同点就是用AI解决了真实的问题

给下一代的机会

我们这代人,还在努力适应AI。但下一代,完全可以从小学会"和AI协作"

就像DeepSeek的工程师们,没有从零发明了新理论,而是把已有的工具组合起来,解决了实际问题。

这种"解决问题"的能力,越早培养越好。

【前哨AI冬令营】专为8-16岁孩子设计

7天时间,让孩子亲手做出可上线的作品:

专属小游戏(卡牌游戏、闯关冒险游戏)

微信小程序(卡路里识别、饭店点餐小程序)

教孩子"AI的原理是什么",更教孩子"怎么用AI解决问题"。

当DeepSeek的工程师用58年前的老算法解决最前沿的难题时,你的孩子也可以学会:用现有的工具,解决真实的问题。

和AI时代一起成长

⏰ 名额有限,先到先得,扫码报名 ↓


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
日本梅毒泛滥、“神待少女” 丛生:百毒遍地,遥遥领先

日本梅毒泛滥、“神待少女” 丛生:百毒遍地,遥遥领先

半耳聆
2026-01-07 17:21:19
能否找回射门靴?哈兰德英超生涯从未连续4场0球0助攻

能否找回射门靴?哈兰德英超生涯从未连续4场0球0助攻

懂球帝
2026-01-08 01:34:19
002757,尾盘突然跳水!英伟达重大宣布,液冷产业迈入业绩兑现期

002757,尾盘突然跳水!英伟达重大宣布,液冷产业迈入业绩兑现期

数据宝
2026-01-07 18:33:35
最高9.8分,美剧史上的入门级Top.10,建议收藏

最高9.8分,美剧史上的入门级Top.10,建议收藏

来看美剧
2026-01-04 20:33:49
王石的体面,被田朴珺扯得干干净净

王石的体面,被田朴珺扯得干干净净

言叔财经视角
2026-01-05 13:50:10
陈芋汐在东方卫视跨年晚会被推到角落合影,到底谁尴尬了?

陈芋汐在东方卫视跨年晚会被推到角落合影,到底谁尴尬了?

罗纳尔说个球
2026-01-06 21:51:50
流落柬埔寨女网红毒品检测呈阳性,视频主页称“靠自己没用的”,家人赴柬,大使馆提醒

流落柬埔寨女网红毒品检测呈阳性,视频主页称“靠自己没用的”,家人赴柬,大使馆提醒

潇湘晨报
2026-01-06 17:20:18
霸王茶姬公布处理结果!女店员真容曝光人很漂亮,网友评论笑疯了

霸王茶姬公布处理结果!女店员真容曝光人很漂亮,网友评论笑疯了

奇思妙想草叶君
2026-01-08 00:52:01
河村勇辉,重返NBA

河村勇辉,重返NBA

刺猬篮球
2026-01-08 00:04:42
哪些问题是靠非常规手段解决的?网友:公司强行要求出差能拒绝吗

哪些问题是靠非常规手段解决的?网友:公司强行要求出差能拒绝吗

带你感受人间冷暖
2026-01-02 00:05:17
马杜罗被捕现场细节流出:古巴硬汉贴身安保,战至最后尽忠职守

马杜罗被捕现场细节流出:古巴硬汉贴身安保,战至最后尽忠职守

装甲铲史官
2026-01-04 15:14:32
朴槿惠出狱生活:住1676平别墅,与小10岁律师为伴,如今生活安逸

朴槿惠出狱生活:住1676平别墅,与小10岁律师为伴,如今生活安逸

顾史
2026-01-07 20:10:11
纵览热点|男子称被海南儋州一派出所民警辱骂“神经病”,派出所:是协管员,已对其批评教育

纵览热点|男子称被海南儋州一派出所民警辱骂“神经病”,派出所:是协管员,已对其批评教育

纵览新闻
2026-01-07 19:51:04
海报|“绿色消费20条”来了!与你我生活密切相关

海报|“绿色消费20条”来了!与你我生活密切相关

新华社
2026-01-06 20:21:09
大批油轮冲出委内瑞拉港,美国根本拦不住!中国已发话,大戏开始

大批油轮冲出委内瑞拉港,美国根本拦不住!中国已发话,大戏开始

玉涵简书
2026-01-06 15:43:29
关晓彤再上热搜:未来请幸福是官宣分手?这状态看到了当年的杨幂

关晓彤再上热搜:未来请幸福是官宣分手?这状态看到了当年的杨幂

小杨侃事
2026-01-07 13:25:28
广东3消息!徐杰感冒仍封神,焦泊乔完美觉醒,崔永熙主动请战

广东3消息!徐杰感冒仍封神,焦泊乔完美觉醒,崔永熙主动请战

多特体育说
2026-01-08 00:41:30
别墅搜出23件国宝,全家集体失联!徐湖平案落幕,17年举报有结果

别墅搜出23件国宝,全家集体失联!徐湖平案落幕,17年举报有结果

诗意世界
2026-01-03 15:19:25
风向不对!网上现大量“美国只斩首,不伤平民”言论,值得警惕

风向不对!网上现大量“美国只斩首,不伤平民”言论,值得警惕

消失的电波
2026-01-06 14:11:46
勒布朗30+8+8湖人逆转鹈鹕3连胜,东契奇30+10墨菲42+5

勒布朗30+8+8湖人逆转鹈鹕3连胜,东契奇30+10墨菲42+5

湖人崛起
2026-01-07 11:26:01
2026-01-08 01:43:00
王煜全 incentive-icons
王煜全
王煜全带你一起看创新
976文章数 751关注度
往期回顾 全部

科技要闻

精华!黄仁勋CES记者会:揭秘新款大杀器

头条要闻

美军扣押俄潜艇护航的油轮 俄罗斯外交部回应

头条要闻

美军扣押俄潜艇护航的油轮 俄罗斯外交部回应

体育要闻

卖水果、搬砖的小伙,与哈兰德争英超金靴

娱乐要闻

《马背摇篮》首播,革命的乐观主义故事

财经要闻

农大教授科普:无需过度担忧蔬菜农残

汽车要闻

燃油驾趣+智能电感双Buff 试驾全新奥迪Q5L

态度原创

数码
本地
家居
手机
公开课

数码要闻

技嘉Z890主板适配英特尔新处理器,还展示256GB内存!

本地新闻

“闽东利剑·惠民安商”高效执行专项行动

家居要闻

宁静不单调 恰到好处的美

手机要闻

曝Galaxy S26系列2月25日发布,不会涨价!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版