网易首页 > 网易号 > 正文 申请入驻

DeepSeek推出mHC架构提升AI模型性能

0
分享至


DeepSeek研究人员开发了一种名为流形约束超连接(mHC)的技术,能够提升人工智能模型的性能。

这家中国AI实验室于周三发布的论文中首次展示了该软件。

DeepSeek创建mHC是为了增强大语言模型用于学习新信息的残差连接机制。这种机制发明于2015年,也广泛应用于许多视觉模型中。DeepSeek并非首个尝试改进残差连接的公司,但此前的尝试结果喜忧参半。

AI模型的工作原理与架构

AI模型由众多被称为"层"的软件组件组成。当用户输入提示时,文本进入第一层,执行生成响应所需的一小部分计算。第一层将计算结果发送给第二层,第二层完成另一部分工作,将结果传递给第三层,以此类推。最后一层向用户输出答案。

最后一层在AI训练过程中发挥关键作用。如果模型输出错误的响应,最后一层会接收到所谓的梯度信号。梯度是一个表明AI犯错的信号,也包含了模型如何改进的信息。梯度进入最后一层,然后向后传播通过AI结构的其余部分,直到到达第一层。

残差连接的发展历程

2015年,研究人员发明了一种名为残差连接的梯度管理机制。这是一种快捷方式,使梯度能够直接在两个距离较远的AI层之间传播,而无需通过中间的所有层。残差连接缓解了几种常见的AI训练错误,这也是它们在大语言模型和视觉模型中被广泛使用的原因。

去年9月,研究人员推出了残差连接的替代方案——超连接。它解决了残差连接机制的几个不足,但也有自身的局限性。DeepSeek本周推出的mHC架构是超连接的增强实现版本,避免了后者相关的几个技术挑战,使其更适合生产使用。

mHC的核心创新

mHC的主要创新在于它融合了所谓的流形。流形是一个广泛的数学对象家族,复杂程度差异很大。一些流形是简单的几何形状如圆形,而另一些则跨越三维以上的空间。DeepSeek表示,mHC使用流形来维持梯度在AI模型各层之间传播时的稳定性。

性能测试与结果

该公司通过使用mHC架构训练了3个分别拥有30亿、90亿和270亿参数的大语言模型来测试这一架构。然后使用超连接技术训练了三个参数量相同的其他模型。据DeepSeek称,在八个不同的AI基准测试中,mHC驱动的大语言模型表现更佳。

该公司表示,这种架构在硬件效率方面也优于超连接。超连接机制显著增加了大语言模型在训练期间的内存需求。在内部测试中,DeepSeek确定mHC仅产生6.27%的硬件开销。

"通过深化对拓扑结构如何影响优化和表示学习的理解,mHC将有助于解决当前的局限性,并可能为下一代基础架构的演进照亮新的道路,"DeepSeek研究人员在mHC论文中写道。

Q&A

Q1:mHC架构是什么?它有什么优势?

A:mHC(流形约束超连接)是DeepSeek开发的AI架构技术,用于提升人工智能模型性能。它是超连接技术的增强版本,通过融合流形数学对象来维持梯度传播的稳定性,避免了超连接的技术挑战,更适合生产使用。

Q2:mHC相比其他技术表现如何?

A:在测试中,使用mHC架构训练的大语言模型在八个不同AI基准测试中均优于使用超连接技术训练的同等参数模型。此外,mHC在硬件效率方面也更优秀,仅产生6.27%的硬件开销,而超连接会显著增加内存需求。

Q3:残差连接和超连接是什么关系?

A:残差连接是2015年发明的梯度管理机制,允许梯度直接在距离较远的AI层间传播。超连接是去年9月推出的残差连接替代方案,解决了残差连接的一些不足但有自身局限。mHC则是超连接的增强实现版本。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
带娃上厕所被嫂子网暴后续:宝妈“底裤”被扒,更恶心的还在后面

带娃上厕所被嫂子网暴后续:宝妈“底裤”被扒,更恶心的还在后面

游者走天下
2026-01-07 14:19:47
门诊楼大厅吊顶破损部分坠落致4人受伤,三亚中心医院发布情况通报

门诊楼大厅吊顶破损部分坠落致4人受伤,三亚中心医院发布情况通报

澎湃新闻
2026-01-09 05:05:08
新西兰人:中国喜欢一箭双雕后敲骨吸髓!573团阵亡95%爆杀400人

新西兰人:中国喜欢一箭双雕后敲骨吸髓!573团阵亡95%爆杀400人

小豫讲故事
2026-01-05 06:00:06
难怪美军长驱直入,中俄雷达全都停止搜索,委内瑞拉把好牌打烂

难怪美军长驱直入,中俄雷达全都停止搜索,委内瑞拉把好牌打烂

诗意世界
2026-01-05 19:54:53
41岁演员白百何晒素颜上班照,并向网友发出“灵魂提问”,称自己想找个胶带把眼皮贴起来

41岁演员白百何晒素颜上班照,并向网友发出“灵魂提问”,称自己想找个胶带把眼皮贴起来

台州交通广播
2026-01-06 23:24:32
42岁田馥甄晒出首尔旅行照,素颜皮肤问题多多,面相变得让人陌生

42岁田馥甄晒出首尔旅行照,素颜皮肤问题多多,面相变得让人陌生

阿雹娱乐
2026-01-08 12:05:34
多哈冠军赛八强争夺战,国乒11胜1负优势巨大,陈熠迎来苦战

多哈冠军赛八强争夺战,国乒11胜1负优势巨大,陈熠迎来苦战

小鬼头体育
2026-01-09 05:22:13
中年人最佳抗衰老方式——练肌肉,3个方法提升肌肉量!

中年人最佳抗衰老方式——练肌肉,3个方法提升肌肉量!

增肌减脂
2025-11-30 18:15:06
普京的“战争机器”要停转了?俄罗斯军工开始暴雷,根源藏不住了

普京的“战争机器”要停转了?俄罗斯军工开始暴雷,根源藏不住了

瞩望云霄
2025-11-24 14:22:53
慈禧太后一天的生活开销,放在今天,大概需要多少人民币维持?

慈禧太后一天的生活开销,放在今天,大概需要多少人民币维持?

铭记历史呀
2026-01-08 08:42:11
中国车企在新西兰爆卖,销量大涨91.8%

中国车企在新西兰爆卖,销量大涨91.8%

后视镜里de未来
2026-01-07 16:16:20
21-1!神级大交易啊!湖媒直呼毁了整个NBA

21-1!神级大交易啊!湖媒直呼毁了整个NBA

哎呀哎呀看电影
2025-12-05 11:04:38
不准踏入中国市场一步?我国下达“逐客令”,三星绝望:放过我们

不准踏入中国市场一步?我国下达“逐客令”,三星绝望:放过我们

楠楠自语
2025-11-29 14:57:13
女性的私处哪种形态更好?女性阴部的形状类型有哪些?不妨来了解

女性的私处哪种形态更好?女性阴部的形状类型有哪些?不妨来了解

医者荣耀
2025-12-25 12:05:06
见识过令人拍案叫绝的临场反应吗?网友:这情商以后高低是个局长

见识过令人拍案叫绝的临场反应吗?网友:这情商以后高低是个局长

夜深爱杂谈
2025-11-21 20:33:42
中方支持委内瑞拉人民对自己国家的领土与自然资源享有完全主权,委内瑞拉外长:感谢中方支持

中方支持委内瑞拉人民对自己国家的领土与自然资源享有完全主权,委内瑞拉外长:感谢中方支持

环球网资讯
2026-01-08 11:57:05
皮尔斯:弱队球星真实水平很难评价,他们还需在强队中证明自己

皮尔斯:弱队球星真实水平很难评价,他们还需在强队中证明自己

懂球帝
2026-01-08 16:53:09
42岁曲婉婷现状曝光!从豪宅搬到普通平房,男友卷走共同账户资金

42岁曲婉婷现状曝光!从豪宅搬到普通平房,男友卷走共同账户资金

小徐讲八卦
2026-01-08 09:56:21
特写丨韩国总统李在明出席上海大韩民国临时政府旧址100周年纪念活动

特写丨韩国总统李在明出席上海大韩民国临时政府旧址100周年纪念活动

澎湃新闻
2026-01-07 23:33:06
国内首个海上可复用火箭基地开工:目标年产25发火箭,发射成本对标SpaceX

国内首个海上可复用火箭基地开工:目标年产25发火箭,发射成本对标SpaceX

澎湃新闻
2026-01-08 14:20:26
2026-01-09 08:00:49
至顶头条 incentive-icons
至顶头条
记录和推动数字化创新
15343文章数 49683关注度
往期回顾 全部

科技要闻

内存一天一个价,华强北老板们却高兴不起来

头条要闻

男子与女友吵架飙车泄愤撞死1家3口 当时讨论鹦鹉学舌

头条要闻

男子与女友吵架飙车泄愤撞死1家3口 当时讨论鹦鹉学舌

体育要闻

世乒赛银牌得主,说自己梦里都是孙颖莎

娱乐要闻

抗战剧《马背摇篮》首播,获观众好评

财经要闻

微软CTO韦青:未来人类会花钱"戒手机"

汽车要闻

从量变到"智"变 吉利在CES打出了五张牌

态度原创

手机
健康
旅游
家居
亲子

手机要闻

1699元起,续航性能拉满,一加刚发布的新机太狂了

这些新疗法,让化疗不再那么痛苦

旅游要闻

探秘京津冀科学名片|保定这家博物馆超好逛

家居要闻

理性主义 冷调自由居所

亲子要闻

家长注意了!这7件事别再孩子面前做!

无障碍浏览 进入关怀版