网易首页 > 网易号 > 正文 申请入驻

DeepSeek新年炸场!梁文锋署名论文发布

梁文锋和DeepSeek想做啥

新年最炸的爆款出现了

0
分享至

1月1日消息,DeepSeek赶在新年前发送了“贺礼”,在新论文中提出了名为mHC(流形约束超连接)的新网络架构,旨在解决传统架构在大规模模型训练中的不稳定性问题,这一研究或将为下一代基础架构的演进指明新方向。


梁文锋署名论文发布

新论文名为《mHC :Manifold-Constrained Hyper-Connections》(《mHC:流形约束超连接 》),DeepSeek创始人兼CEO梁文锋出现在了合著名单之中,而解振达(Zhenda Xie)、韦毅轩(Yixuan Wei)、曹焕琪(Huanqi Cao)则是核心贡献者。

近年来,以超连接(HC)为代表的研究拓展了过去十年确立的通用残差连接范式(深度神经网络的经典连接范式),靠拓宽神经网络的“信息传输通道”、增加通道间的连接,让模型性能变好。但这种多样化也导致了大规模训练中的不稳定性、可扩展性受限及内存访问开销大的问题。

因此,DeepSeek这篇论文针对超连接架构这些问题,提出兼顾性能与效率的改进框架,即mHC架构,这类似于给超连接的“信息通道”加了一套“交通规则”,在保留性能优势的同时,又恢复了信息原样传递的特性,让模型训练更稳定、更容易做大,从而推动大模型底层架构的工业化落地。

这一论文整体较为技术,但通俗来讲,如果将AI模型想象成一个很长的“计算链条”,传统计算链条的问题在于,传递信息时是一条窄窄的管道,信息量大了就会“堵车”。后来的方法是将管道加宽(超连接),信息流更多,但水流太猛有时候会把水管冲坏。DeepSeek提出的mHC相当于给水管加了“智能调节阀”,能确保水流的稳定,运行的时候更省资源。

在论文中,DeepSeek表示,mHC为未来研究开辟了多个前景广阔的路径。研究团队希望mHC能重新激发学界对宏观架构设计的兴趣。通过深化对拓扑结构如何影响优化与表征学习的理解,mHC或将有助于突破当前限制,并可能为下一代基础架构的演进指明新方向。

从行业意义上来看,mHC或许能让企业在训练更大规模的基础模型时,减少硬件投入、缩短训练周期。比如算力有限的中小AI企业,也能尝试开发更复杂的大模型,降低了大模型研发的门槛。此外,训练稳定性和可扩展性的提升,能让大模型在更复杂的场景落地,比如需要超大规模参数的多模态模型、工业级的智能决策系统。

有行业人士评价认为,DeepSeek这一研究是底层创新,这次创新的架构看向的是Transformer最基础的问题,结合此前的积累,他预测DeepSeek 有望在V4版本中做出重大的更新。

自2025年初引发广泛关注以来,这一年DeepSeek虽未正式推出R2或V4等重大版本,但在模型迭代与开源上持续发力:仅12月就同步推出了DeepSeek-V3.2与V3.2-Special,11月底也开源了数学推理模型DeepSeek-Math-V2,成为目前首个达到国际奥数金牌水平并开放使用的数学模型。

责任编辑:李超_NB12814

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
女人不管差不差钱,最好别穿这3种“大衣”,掉档次又土气廉价

女人不管差不差钱,最好别穿这3种“大衣”,掉档次又土气廉价

何有强
2026-01-02 23:11:48
你知道女性的阴道有多长吗?或许与你所想,完全不同!

你知道女性的阴道有多长吗?或许与你所想,完全不同!

战争茶馆
2025-11-26 10:33:50
黄牛都不收,泡泡玛特自己砸了金饭碗

黄牛都不收,泡泡玛特自己砸了金饭碗

科技狐
2026-01-01 22:38:37
又一个大V被封!任何政治狂热,都是国家和人民的灾难!

又一个大V被封!任何政治狂热,都是国家和人民的灾难!

深度报
2025-12-10 22:37:02
高芙隔空示爱梅总:相较于辛纳阿卡,我更爱他比赛会给人带来惊喜

高芙隔空示爱梅总:相较于辛纳阿卡,我更爱他比赛会给人带来惊喜

网球之家
2026-01-03 22:54:26
和地产大亨恋爱,如今嫁香港百亿豪门,生3娃掌握继承权

和地产大亨恋爱,如今嫁香港百亿豪门,生3娃掌握继承权

素衣读史
2026-01-03 18:30:38
雷军直播回应拆小米YU7汽车:希望大家能说一些公道话

雷军直播回应拆小米YU7汽车:希望大家能说一些公道话

IT之家
2026-01-03 19:26:10
突然大跌!马斯克,突传大消息!

突然大跌!马斯克,突传大消息!

证券时报e公司
2026-01-03 15:03:16
俄罗斯“幻梦神婆”预言:血色北极光,十二星,2026 梦碎世界

俄罗斯“幻梦神婆”预言:血色北极光,十二星,2026 梦碎世界

心灵短笛
2025-12-25 11:08:11
温铁军:中国被美国扒掉了两层皮,竟还有人妄想让中国做美的助手

温铁军:中国被美国扒掉了两层皮,竟还有人妄想让中国做美的助手

长星寄明月
2026-01-01 06:06:56
美方提醒:如果双方谈不拢,中国的武器装备可能会去美国大门口

美方提醒:如果双方谈不拢,中国的武器装备可能会去美国大门口

科学知识点秀
2025-12-31 08:00:06
“新冠疫苗之父”落马,荣誉清零!打过三针的网友慌了

“新冠疫苗之父”落马,荣誉清零!打过三针的网友慌了

胡严乱语
2025-12-07 15:51:07
女护士让男友配药后续:女护士停职 知情人曝猛料  塞钱进的医院

女护士让男友配药后续:女护士停职 知情人曝猛料 塞钱进的医院

鋭娱之乐
2026-01-04 01:10:03
狼队3球战胜西汉姆,取得联赛首胜

狼队3球战胜西汉姆,取得联赛首胜

体坛周报
2026-01-04 01:04:10
它是止咳第一名,放到锅中蒸一蒸,轻松排出黄痰,做法真的很简单

它是止咳第一名,放到锅中蒸一蒸,轻松排出黄痰,做法真的很简单

江江食研社
2025-12-11 10:30:10
最近,美国连续扣押多艘中国商船,中国是如何反击的?

最近,美国连续扣押多艘中国商船,中国是如何反击的?

阿胡
2025-12-23 17:56:32
杨绛:选亲家时,要留意对方家庭的3个细节,才是真的为儿女着想

杨绛:选亲家时,要留意对方家庭的3个细节,才是真的为儿女着想

诗词中国
2026-01-03 18:16:35
2026年最冷时间表已出炉,啥时候最冷?冷多久?春节期间冷不冷?

2026年最冷时间表已出炉,啥时候最冷?冷多久?春节期间冷不冷?

小谈食刻美食
2026-01-03 11:41:58
悲催!日本东京不少市民最近没饭吃了,多个生活救济点前排起长队

悲催!日本东京不少市民最近没饭吃了,多个生活救济点前排起长队

火山詩话
2026-01-02 18:41:47
当石油被抢后,西方普遍认为北京只能认栽,怎料中方一招逆转局面

当石油被抢后,西方普遍认为北京只能认栽,怎料中方一招逆转局面

小lu侃侃而谈
2026-01-02 19:54:47
2026-01-04 01:52:49
第一财经资讯 incentive-icons
第一财经资讯
第一财经官方账号
240437文章数 621102关注度
往期回顾 全部

科技要闻

雷军:骂小米汽车有流量,但别故意抹黑

头条要闻

牛弹琴:美国入侵委内瑞拉 给世界带来三个血的教训

头条要闻

牛弹琴:美国入侵委内瑞拉 给世界带来三个血的教训

体育要闻

青岛西海岸官宣:郑智出任一线队主教练

娱乐要闻

司晓迪事件再升级 司晓迪称鹿晗最好

财经要闻

具身智能抢人大战:毕业一年 年薪300万

汽车要闻

奕派科技全年销量275,752辆 同比增长28.3

态度原创

旅游
亲子
家居
时尚
军事航空

旅游要闻

接待国内游客超800万人次!元旦小长假重庆再成“香饽饽”

亲子要闻

后续!月嫂给婴儿偷喂安眠药被抓,身份被扒,知情人曝行业内幕

家居要闻

无形有行 自然与灵感诗意

好美啊!58岁的她开挂了

军事要闻

特朗普称将干涉伊朗骚乱事件 伊朗政府发声明强烈谴责

无障碍浏览 进入关怀版