网易首页 > 网易号 > 正文 申请入驻

DeepSeek又放大招!梁文锋署名新论文引关注

0
分享至

来源:21世纪经济报道

  DeepSeek近日发布论文,阐述了一种更为高效的人工智能开发方法。该论文由创始人梁文锋参与撰写,提出了名为“流形约束超连接”(mHC)的框架。作者称,该框架旨在提升可扩展性,同时降低训练先进人工智能系统的算力和能源需求。DeepSeek下一代旗舰系统R2预计将在2月份春节前后问世。

  DeepSeek提出mHC新架构

  1月1日消息,DeepSeek发布了一篇新论文,提出了一种名为mHC(流形约束超连接)的新架构。

  该研究旨在解决传统超连接在大规模模型训练中的不稳定性问题,同时保持其显著的性能增益。

  这篇论文的第一作者有三位:Zhenda Xie(解振达)、Yixuan Wei(韦毅轩)、Huanqi Cao。值得注意的是,DeepSeek创始人梁文锋也在作者名单中。


  论文摘要指出,近来,以超连接(HC)为代表的研究通过拓宽残差流宽度和多样化连接模式,拓展了过去十年间确立的普遍采用的残差连接范式。虽然这些改进带来了显著的性能提升,但连接模式的多样化从根本上削弱了残差连接固有的恒等映射特性,导致严重的训练不稳定性与受限的可扩展性,同时还造成了显著的内存访问开销。

  为了解决这些问题,DeepSeek提出了流形约束超连接(mHC)——一种通用框架,能够将HC的残差连接空间投影到特定流形上,从而恢复恒等映射特性,并融合严格的基础设施优化以确保运行效率。

  DeepSeek称,实证实验表明,mHC能够有效支持大规模训练,在提供明显性能提升的同时具备更优的可扩展性。DeepSeek预计,mHC作为HC的一种灵活而实用的拓展,将有助于深化对拓扑架构设计的理解,并为基座模型的演进指明富有前景的方向。

  内部大规模训练结果显示,mHC可有效支持规模化训练,当扩展率?=4时,仅带来6.7%的额外时间开销。


  图为残差连接范式的示意图。本图对比了 (a) 标准残差连接、(b) 超连接 以及 (c) 流形约束超连接的结构设计。与无约束的HC不同,mHC通过将连接矩阵投影到一个约束流形上,专注于优化残差连接空间,从而确保训练的稳定性。

  论文在结论与展望部分指出,实证结果表明,mHC能有效恢复恒等映射特性,相较于传统HC,能以更优的可扩展性实现稳定的大规模训练。关键的是,通过高效的基础设施级优化,mHC以可忽略的计算开销实现了上述改进。

  论文还指出,作为HC范式的广义拓展,mHC为未来研究开辟了多个重要方向:虽然本研究采用双随机矩阵确保稳定性,但该框架可兼容针对特定学习目标设计的多种流形约束探索;预计对差异化几何约束的深入研究可能催生能更好权衡可塑性—稳定性关系的新方法。此外,DeepSeek希望mHC能重新激发学界对宏观架构设计的关注。通过深化对拓扑结构如何影响优化与表征学习的理解,mHC将有助于突破现有局限,并可能为下一代基础架构的演进指明新路径。

  DeepSeek频频上“热搜”

  近期,DeepSeek动作不断,“热搜”也不断。

  2025年12月8日

  梁文锋入选《自然》年度十大科学人物

  2025年12月8日,英国《自然》杂志网站发布2025年度十大科学人物榜单,中国人工智能企业深度求索创始人梁文锋和中国科学院深海科学家杜梦然入选。

  2025年1月,来自中国的一则公告震撼了人工智能界。深度求索公司发布其强大而低成本的R1推理模型。《自然》杂志网站称,这瞬间证明美国在人工智能领域的发展并不像许多专家想象的那样遥遥领先。

  2025年12月1日

  DeepSeek发布两个正式版模型

  据DeepSeek官微,2025年12月1日,DeepSeek发布两个正式版模型:DeepSeek-V3.2和DeepSeek-V3.2-Speciale。DeepSeek-V3.2强化Agent能力,官方网页端、App和API均已更新为正式版DeepSeek-V3.2。Speciale版本目前仅以临时API服务形式开放,以供社区评测与研究。

  2025年11月27日

  DeepSeek推出新模型

  2025年11月27日,DeepSeek推出新型数学推理模型DeepSeekMath-V2,采用可自我验证的训练框架。该模型基于DeepSeek-V3.2-Exp-Base构建,通过LLM验证器自动审查生成的数学证明,并利用高难度样本持续优化性能。

  2025年10月20日

  DeepSeek开源新模型

  2025年10月20日,DeepSeek-AI团队发布《DeepSeek-OCR:Contexts Optical Compression》论文,提出利用视觉模态压缩长文本上下文的新方法。根据介绍,此次开源的 DeepSeek-OCR 由两个部分组成:核心编码器 DeepEncoder 和解码器 DeepSeek3B-MoE-A570M。在实际生产中,DeepSeek-OCR 可在单块 A100-40G 显卡上每天生成超过 20 万页的大语言模型 / 视觉语言模型训练数据。

  2025年9月29日

  DeepSeek-V3.2-Exp模型正式发布

  2025年9月29日,深度求索公司发布了 DeepSeek-V3.2-Exp 模型,其宛如再次向国产芯片江湖投入一枚巨石。

  官方公告显示,新版本模型实验性地引入了 DeepSeek Sparse Attention(一种稀疏注意力机制),其显著降低计算资源消耗并提升推理效率。

  而得益于这一技术创新,深度求索宣布其官方App、网页端、小程序均已同步更新为新模型,并全面下调API价格,降幅在50%到75%不等。

  值得注意的是,不同于上次发布 DeepSeek-V3.1版本时“犹抱琵琶半遮面”的状态,此次 V3.2 EXP 版本的发布,几乎零时差引发数个国产芯片厂商——华为、寒武纪、海光等的“认领”。

  2025年9月17日

  登上《自然》!DeepSeek-R1训练方法发布

  2025年9月17日,由DeepSeek团队共同完成、梁文锋担任通讯作者的DeepSeek-R1推理模型研究论文,登上国际顶级期刊《自然(Nature)》的封面。该期刊编辑部直言:目前几乎所有主流的大模型都还没有经过独立同行评审,这一空白“终于被DeepSeek打破”。

  DeepSeek-R1包含一个在人类监督下的深入训练阶段,以优化推理过程。梁文锋团队报告称,该模型使用了强化学 习 而非人类示例来开发推理步骤,减少了训练成本和复杂性。DeepSeek-R1在被展示优质的问题解决案例后,会获得一个模板来产生推理过程,即这一模型通过解决问题获得奖励,从而强化学习效果。团队总结说, 未来研究可以聚焦优化奖励过程,以确保推理和任务结果更可靠。

  来源:综合自证券时报、财联社、21世纪经济报道及公开信息

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
赖昌星发妻曾明娜现状:逃亡10年后回国,守着3000平老宅安静养老

赖昌星发妻曾明娜现状:逃亡10年后回国,守着3000平老宅安静养老

古书记史
2025-12-12 11:21:38
家人阳寿将尽有预兆?黑白无常透露:家中出现这3种征兆,切莫轻视

家人阳寿将尽有预兆?黑白无常透露:家中出现这3种征兆,切莫轻视

古怪奇谈录
2025-12-31 15:04:57
司晓迪鹿晗风波仅3天,央媒点名关晓彤,释放2大信号,风向变了

司晓迪鹿晗风波仅3天,央媒点名关晓彤,释放2大信号,风向变了

观察鉴娱
2026-01-06 09:12:57
美国生擒委内瑞拉总统,什么国损失最惨重?

美国生擒委内瑞拉总统,什么国损失最惨重?

怪口历史的K先生
2026-01-05 20:22:32
双色球第2026003期:上一期综合中5红,01 05 18 30 32。

双色球第2026003期:上一期综合中5红,01 05 18 30 32。

潮涌花乡
2026-01-06 09:59:46
哈梅内伊的强硬表态,听给谁听

哈梅内伊的强硬表态,听给谁听

陆弃
2026-01-05 09:55:19
有一种痛苦叫“买了第四代住宅”,幻想很高级,入住后一言难尽!

有一种痛苦叫“买了第四代住宅”,幻想很高级,入住后一言难尽!

装修秀
2025-12-11 10:45:03
很多人好奇马杜罗的卫队干啥去了,看下下面这个地图就知道了。

很多人好奇马杜罗的卫队干啥去了,看下下面这个地图就知道了。

安安说
2026-01-05 15:25:33
1997年,毛新宇和郝明莉结了婚,婚后选择去到香港度蜜月

1997年,毛新宇和郝明莉结了婚,婚后选择去到香港度蜜月

大运河时空
2025-12-10 13:35:03
黄仁勋新年首场演讲:AI超级芯片平台Rubin全面投产,开源自动驾驶推理模型

黄仁勋新年首场演讲:AI超级芯片平台Rubin全面投产,开源自动驾驶推理模型

澎湃新闻
2026-01-06 07:40:30
皮尔斯:大加索尔比科比更该得2010年FMVP,他统治了总决赛

皮尔斯:大加索尔比科比更该得2010年FMVP,他统治了总决赛

懂球帝
2026-01-06 09:08:28
票房从13亿跌到2.6亿,我五味杂陈:古天乐一把就砸了港片的饭碗

票房从13亿跌到2.6亿,我五味杂陈:古天乐一把就砸了港片的饭碗

星宿影视鸭
2026-01-02 18:08:54
蒋介石在日记里承认:重庆谈判放走毛泽东,全是由于这两个条件!

蒋介石在日记里承认:重庆谈判放走毛泽东,全是由于这两个条件!

鹤羽说个事
2026-01-05 11:09:55
外媒:美国突袭委内瑞拉后,特朗普将矛头再次对准古巴

外媒:美国突袭委内瑞拉后,特朗普将矛头再次对准古巴

环球网资讯
2026-01-05 10:36:26
为什么国家已经明牌了要拉股市,但是很多人还是不相信慢牛来了?

为什么国家已经明牌了要拉股市,但是很多人还是不相信慢牛来了?

小白鸽财经
2026-01-06 07:05:03
人狂必有祸!被何庆魁骂“白眼狼”的闫学晶,狐狸尾巴藏不住了

人狂必有祸!被何庆魁骂“白眼狼”的闫学晶,狐狸尾巴藏不住了

小张帅
2026-01-06 09:01:22
官方:拜仁男篮裁掉32岁后卫丁威迪;球员因家人重病已返回美国

官方:拜仁男篮裁掉32岁后卫丁威迪;球员因家人重病已返回美国

懂球帝
2026-01-05 19:27:31
蔡依林演唱会耗资9亿!30米巨蟒开场引热议,网友:震撼却神秘难懂

蔡依林演唱会耗资9亿!30米巨蟒开场引热议,网友:震撼却神秘难懂

手工制作阿歼
2026-01-06 09:35:48
中国人讨论美国“斩杀线”,让“精神美国人”集体破防

中国人讨论美国“斩杀线”,让“精神美国人”集体破防

郎言志
2026-01-05 09:22:04
成都一在建工地塔吊坍塌致5死,12名公职人员被追责问责

成都一在建工地塔吊坍塌致5死,12名公职人员被追责问责

界面新闻
2026-01-05 17:09:16
2026-01-06 10:39:00
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
1920065文章数 5172关注度
往期回顾 全部

科技要闻

性能涨5倍!黄仁勋CES秀肌肉 下代芯片来了

头条要闻

马杜罗在出庭期间在纸上做笔记 对旁听席说"新年快乐"

头条要闻

马杜罗在出庭期间在纸上做笔记 对旁听席说"新年快乐"

体育要闻

从NBA最菜首发控卫,到NBA最强乔治

娱乐要闻

《探索新境2》王一博挑战酋长岩

财经要闻

丁一凡:中美进入相对稳定的竞争共存期

汽车要闻

马斯克评英伟达纯视觉自动驾驶系统Alpamayo

态度原创

本地
健康
数码
时尚
公开课

本地新闻

云游内蒙|初见呼和浩特,古今交融的北疆都会

这些新疗法,让化疗不再那么痛苦

数码要闻

小米REDMI蓝牙音箱2“暮焰黑”配色开售,99元

冬天穿衣其实很简单!上短下长、加点亮色,高级舒适又耐看

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版