网易首页 > 网易号 > 正文 申请入驻

DeepSeek新年炸场!梁文锋署名论文发布

0
分享至

来源:第一财经

1月1日消息,DeepSeek赶在新年前发送了“贺礼”,在新论文中提出了名为mHC(流形约束超连接)的新网络架构,旨在解决传统架构在大规模模型训练中的不稳定性问题,这一研究或将为下一代基础架构的演进指明新方向。


新论文名为《mHC :Manifold-Constrained Hyper-Connections》(《mHC:流形约束超连接 》),DeepSeek创始人兼CEO梁文锋出现在了合著名单之中,而解振达(Zhenda Xie)、韦毅轩(Yixuan Wei)、曹焕琪(Huanqi Cao)则是核心贡献者。

近年来,以超连接(HC)为代表的研究拓展了过去十年确立的通用残差连接范式(深度神经网络的经典连接范式),靠拓宽神经网络的“信息传输通道”、增加通道间的连接,让模型性能变好。但这种多样化也导致了大规模训练中的不稳定性、可扩展性受限及内存访问开销大的问题。

因此,DeepSeek这篇论文针对超连接架构这些问题,提出兼顾性能与效率的改进框架,即mHC 架构,这类似于给超连接的“信息通道”加了一套“交通规则”,在保留性能优势的同时,又恢复了信息原样传递的特性,让模型训练更稳定、更容易做大,从而推动大模型底层架构的工业化落地。

这一论文整体较为技术,但通俗来讲,如果将AI模型想象成一个很长的“计算链条”,传统计算链条的问题在于,传递信息时是一条窄窄的管道,信息量大了就会“堵车”。后来的方法是将管道加宽(超连接),信息流更多,但水流太猛有时候会把水管冲坏。DeepSeek提出的mHC相当于给水管加了“智能调节阀”,能确保水流的稳定,运行的时候更省资源。

在论文中,DeepSeek表示,mHC为未来研究开辟了多个前景广阔的路径。研究团队希望mHC能重新激发学界对宏观架构设计的兴趣。通过深化对拓扑结构如何影响优化与表征学习的理解,mHC或将有助于突破当前限制,并可能为下一代基础架构的演进指明新方向。

从行业意义上来看,mHC或许能让企业在训练更大规模的基础模型时,减少硬件投入、缩短训练周期。比如算力有限的中小AI企业,也能尝试开发更复杂的大模型,降低了大模型研发的门槛。此外,训练稳定性和可扩展性的提升,能让大模型在更复杂的场景落地,比如需要超大规模参数的多模态模型、工业级的智能决策系统。

有行业人士评价认为,DeepSeek这一研究是底层创新,这次创新的架构看向的是Transformer最基础的问题,结合此前的积累,他预测DeepSeek 有望在V4版本中做出重大的更新。

自2025年初引发广泛关注以来,这一年DeepSeek虽未正式推出R2或V4等重大版本,但在模型迭代与开源上持续发力:仅12月就同步推出了DeepSeek-V3.2与V3.2-Special,11月底也开源了数学推理模型DeepSeek-Math-V2,成为目前首个达到国际奥数金牌水平并开放使用的数学模型。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
千万不要过度体检?医生再三提醒:55岁后,这5种体检能不做就不做

千万不要过度体检?医生再三提醒:55岁后,这5种体检能不做就不做

神奇故事
2025-12-30 23:09:45
孩子父亲真相大白后,奚美娟再破天花板,撕开了内娱的“遮羞布”

孩子父亲真相大白后,奚美娟再破天花板,撕开了内娱的“遮羞布”

阿纂看事
2026-01-03 22:25:18
第一批免签去俄罗斯的中产傻眼了

第一批免签去俄罗斯的中产傻眼了

风向观察
2025-12-16 18:26:08
伊朗爆发抗议游行 高层被斩首削弱控制,伊朗民众走上街头

伊朗爆发抗议游行 高层被斩首削弱控制,伊朗民众走上街头

火星人的想法
2025-12-31 06:00:03
波尔图队长飞踹18岁新星!更衣室震怒,全队要求立即解约

波尔图队长飞踹18岁新星!更衣室震怒,全队要求立即解约

阿晞体育
2026-01-03 11:13:06
明朝一男子将私房钱藏于木雕中,藏了600年,几任收藏家都没发现

明朝一男子将私房钱藏于木雕中,藏了600年,几任收藏家都没发现

铭记历史呀
2025-12-30 18:14:57
西方媒体:哪怕中国全力以赴,也不可能按时建成这样庞大的工程

西方媒体:哪怕中国全力以赴,也不可能按时建成这样庞大的工程

乐享人生风雨
2025-12-28 04:19:13
深夜利好,13个龙头集体增持股票,这个全球龙头要增持25亿

深夜利好,13个龙头集体增持股票,这个全球龙头要增持25亿

鹏哥投研
2026-01-03 22:35:12
英法等十国联合发声!

英法等十国联合发声!

占豪
2026-01-01 01:59:21
18倍!段永平高调晒账户,14年年化24%超巴菲特!股民质疑无牌经营?

18倍!段永平高调晒账户,14年年化24%超巴菲特!股民质疑无牌经营?

金石随笔
2026-01-04 00:08:49
特朗普刚抓马杜罗,马斯克跳出来说要逮捕联合国安理会轮值主席

特朗普刚抓马杜罗,马斯克跳出来说要逮捕联合国安理会轮值主席

我心纵横天地间
2026-01-03 23:26:17
中国禁枪的真正原因是啥?网友:不禁掉,中国街上天天真人cs

中国禁枪的真正原因是啥?网友:不禁掉,中国街上天天真人cs

带你感受人间冷暖
2026-01-04 00:20:04
天箭科技净利润或减少超2亿元,陷退市危机!股民可索赔

天箭科技净利润或减少超2亿元,陷退市危机!股民可索赔

扬子晚报
2026-01-03 17:01:43
“性萧条”才是这个时代真正的危机

“性萧条”才是这个时代真正的危机

深蓝夜读
2025-09-24 16:00:09
美论坛:为什么现在的中国看起来完全不再惧怕美国的军事实力?

美论坛:为什么现在的中国看起来完全不再惧怕美国的军事实力?

音乐时光的娱乐
2026-01-04 00:39:17
庞家后人硬刚新华社!七条质疑炸锅,香港媒体敢报的真相太炸裂

庞家后人硬刚新华社!七条质疑炸锅,香港媒体敢报的真相太炸裂

沧海一书客
2025-12-25 19:27:44
全球最小的发达国家,快被中国人“买”下了,中国移民占比87%!

全球最小的发达国家,快被中国人“买”下了,中国移民占比87%!

财叔
2025-12-28 22:59:30
又一个巨头崛起!年入8715亿,超越华为,成第三民营企业!

又一个巨头崛起!年入8715亿,超越华为,成第三民营企业!

牛牛叨史
2025-12-23 23:07:38
特朗普发布马杜罗在美舰照片

特朗普发布马杜罗在美舰照片

界面新闻
2026-01-04 00:35:39
易中天:你躲不掉的!

易中天:你躲不掉的!

霹雳炮
2026-01-03 18:56:00
2026-01-04 02:31:00
中国能源网 incentive-icons
中国能源网
《中国能源报》社有限公司官网官方账号,专注能源行业报道的垂直媒体,是能源专业产经传媒平台。
60826文章数 874关注度
往期回顾 全部

科技要闻

雷军:骂小米汽车有流量,但别故意抹黑

头条要闻

牛弹琴:美国入侵委内瑞拉 给世界带来三个血的教训

头条要闻

牛弹琴:美国入侵委内瑞拉 给世界带来三个血的教训

体育要闻

青岛西海岸官宣:郑智出任一线队主教练

娱乐要闻

司晓迪事件再升级 司晓迪称鹿晗最好

财经要闻

具身智能抢人大战:毕业一年 年薪300万

汽车要闻

奕派科技全年销量275,752辆 同比增长28.3

态度原创

游戏
亲子
本地
教育
公开课

猎魂世界:开服后全主C状态及处境分析!不知不觉已经十二位了!

亲子要闻

后续!月嫂给婴儿偷喂安眠药被抓,身份被扒,知情人曝行业内幕

本地新闻

即将过去的2025年,对重庆的影响竟然如此深远

教育要闻

2026年高考会更轻松吗?扩容背后,录取率未必“水涨船高”

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版