网易首页 > 网易号 > 正文 申请入驻

梁文锋署名DeepSeek新论文,“突破GPU内存限制”

0
分享至

【文/观察者网 熊超然】1月12日晚间,中国人工智能(AI)初创公司DeepSeek创始人梁文锋与北京大学研究人员共同署名发表了一篇技术论文,提出了一种新的模型训练技术。他们表示,该技术可以通过绕过图形处理单元(GPU)内存限制,实现“参数的积极扩展”。

香港《南华早报》1月13日报道指出,此举凸显了DeepSeek在算力相对美国行业领先企业存在差距的情况下,持续专注于最大限度地提高成本效率。与此同时,外界猜测该公司将在今年春节之前发布一款重要的新模型。

报道称,这篇技术含量极高的论文将受到中国和美国业内人士的广泛关注,他们希望从中了解DeepSeek所取得的最新进展。在过去一年中,DeepSeek一直是中国AI领域创新的典范。


DeepSeek与北京大学研究人员合作发表论文,梁文锋在列论文截图

据报道,在这篇题为《基于可扩展查找的条件记忆:大语言模型稀疏性的新维度》(Conditional Memory via Scalable Lookup:A New Axis of Sparsity for Large Language Models)的最新论文中,介绍了一种名为“Engram”(记忆痕迹)的“条件记忆”(conditional memory)技术。

该技术用以解决扩大AI模型规模时的一个关键瓶颈——GPU高带宽内存(HBM)容量有限的问题。

现有的大型语言模型(LLM)通过计算来检索基础信息,而这一过程需要大量的计算能力。然而,研究人员表示,这种方式浪费了宝贵的“序列深度”(sequential depth),这些“序列深度”本可以被分配用于更高层次推理的琐碎操作。

《南华早报》指出,HBM是中国在AI硬件方面与美国之间最大的差距之一。韩国半导体行业分析机构SemiAnalysis的分析师Ray Wang表示,尽管近年来取得了稳步进展,但中国存储芯片巨头长鑫存储(CXMT)仍然比韩国的三星电子和SK海力士以及美国的美光科技等行业领军者落后数年。

在论文中,DeepSeek和北京大学的研究人员表示,通过将计算与存储“解耦”,Engram可以让模型更高效地“查找”这些基础信息。

他们提到的新技术,还能够提升模型在处理长上下文(即较长输入)时的效率,而这正是将AI聊天机器人转变为现实世界中有用的AI代理所面临的最大挑战之一。

研究人员在一个拥有270亿个参数的模型中验证了这一技术,发现它使主要行业基准测试的表现提升了几个百分点。关键在于,这也为模型执行计算需求更高的复杂推理保留了更多容量。

他们写道:“我们认为条件记忆将成为下一代稀疏模型中不可或缺的建模原语。”研究人员将Engram的潜在影响比作他们自己开发的一种“混合专家”(MoE)技术,该技术使模型规模的扩大无需按比例增加计算量,并且此后已被其他中国竞争对手采用。


DeepSeek创始人梁文锋 视频截图

目前,行业中最大的模型拥有数万亿个参数。开源开发者平台Hugging Face的研究工程师埃利·巴库奇(Elie Bakouch)在社交媒体上对这篇论文大加称赞,称其“在推理和训练时用硬件上验证了这一技术”。

据报道,这篇论文列出了14位共同作者,除了梁文锋之外,还包括北京大学王选计算机研究所助理教授、前微软亚洲研究院首席研究员张辉帅。

去年年初,DeepSeek发布的大模型DeepSeek-R1,使用由英伟达H800 GPU驱动的数据中心进行训练,仅用两个月就完成了训练,成本为550万美元,仅为OpenAI等美国公司所花费金额的一小部分。却实现了足以匹敌美国顶尖AI模型的效果,震撼业界的同时引发多国关注,尤其是美国。

当地时间1月12日,据英国《金融时报》报道,微软总裁布拉德·史密斯(Brad Smith)警告称,在争夺西方以外用户的竞争中,美国AI公司正被中国竞争对手超越,中国低成本的“开源”模型是一大优势所在。

他表示,中国AI初创公司DeepSeek的技术在非洲等新兴市场快速普及,凸显了美国公司在全球面临的竞争。“我们必须认识到,与一年前不同,现在中国拥有一个,而且越来越多地拥有不止一个具有竞争力的开源模型。”

报道指出,史密斯发表这番言论之际,微软的一项新研究发现,DeepSeek一年前发布的R1大型语言模型,因其“易用性和低成本”,帮助加速了AI在全球范围内的普及,尤其是在全球南方国家。这也让中国在“开源”AI模型的全球市场份额方面超越了美国,这些模型通常可以免费供开发人员使用、修改和集成。

《南华早报》指出,在DeepSeek发布其R1模型一周年之际,外界对其即将推出一款新的重要模型的期待正在升温。美国硅谷的新兴科技媒体“The Information”当地时间1月9日报道称,DeepSeek预计将在今年2月中旬推出一款具备强大编程能力的新V4模型。

本文系观察者网独家稿件,未经授权,不得转载。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
伊朗前总统内贾德遇袭身亡 伊朗总统说临时领导委员会开始工作 伊朗军方称美“林肯”号航母遭到伊朗4枚弹

伊朗前总统内贾德遇袭身亡 伊朗总统说临时领导委员会开始工作 伊朗军方称美“林肯”号航母遭到伊朗4枚弹

每日经济新闻
2026-03-01 23:03:04
世预赛-日本男篮力克韩国稳居小组第一 霍金森24+7李贤重28+11

世预赛-日本男篮力克韩国稳居小组第一 霍金森24+7李贤重28+11

醉卧浮生
2026-03-01 14:54:49
欧盟下禁令,禁止中国机构参与930亿关键科研项目,包含AI与芯片

欧盟下禁令,禁止中国机构参与930亿关键科研项目,包含AI与芯片

临云史策
2026-03-01 14:32:13
藏了41年,原来尼格买提父亲竟是他,难怪他年年当春晚主持人

藏了41年,原来尼格买提父亲竟是他,难怪他年年当春晚主持人

萧佉影视解说
2026-02-23 20:18:54
永远不要向任何人,包括你的亲戚和好友,透露你真实的财务状况

永远不要向任何人,包括你的亲戚和好友,透露你真实的财务状况

流苏晚晴
2026-02-27 18:09:29
梅德韦杰夫报平安:情况不同寻常,没人知道我们何时能起飞

梅德韦杰夫报平安:情况不同寻常,没人知道我们何时能起飞

懂球帝
2026-03-01 19:44:21
清仓中国满仓日本,巴菲特算准了美日国运,唯独算漏了一件事

清仓中国满仓日本,巴菲特算准了美日国运,唯独算漏了一件事

慕名而来只为你
2026-02-07 12:03:00
如今黄河已成悬河,为啥不让挖泥船把泥沙清走,让黄河整体下移?

如今黄河已成悬河,为啥不让挖泥船把泥沙清走,让黄河整体下移?

天下十三洲猎奇
2026-03-01 00:21:41
紧急返回上海浦东机场!女子爆哭:太可怕了!中东多个机场遭袭击

紧急返回上海浦东机场!女子爆哭:太可怕了!中东多个机场遭袭击

新浪财经
2026-03-01 14:08:54
大批美国游客涌入中国,回国后坦言:客观对比,中国比美国强多了

大批美国游客涌入中国,回国后坦言:客观对比,中国比美国强多了

通文知史
2026-02-26 22:00:04
加拿大皇家银行:欧佩克+基本都已达到最大产能 油价突破每桶100美元是明显威胁

加拿大皇家银行:欧佩克+基本都已达到最大产能 油价突破每桶100美元是明显威胁

财联社
2026-03-01 11:14:09
好惨!香港知名演员新片激情戏被删光,丰满身材难现大银幕

好惨!香港知名演员新片激情戏被删光,丰满身材难现大银幕

眼底星碎
2026-03-01 11:31:34
台关注我军机活动“断崖式锐减”动因

台关注我军机活动“断崖式锐减”动因

沃德舆情观察
2026-02-28 23:26:00
五星级酒店带人不登记可以吗?网友:又是上网涨见识的一天!

五星级酒店带人不登记可以吗?网友:又是上网涨见识的一天!

深度报
2026-02-22 22:52:56
有惊无险!22+9+8!哈登复出惊艳!骑士送篮网8连败,波特砍26分

有惊无险!22+9+8!哈登复出惊艳!骑士送篮网8连败,波特砍26分

毒舌NBA
2026-03-02 07:21:28
哈登22+9+8NBA历史第三人,米神缺阵双塔37分,骑士送篮网8连败

哈登22+9+8NBA历史第三人,米神缺阵双塔37分,骑士送篮网8连败

钉钉陌上花开
2026-03-02 07:15:10
随着霍金斯9-5夺冠,威尔士公开赛奖金出炉:小司机180万 赵心童8

随着霍金斯9-5夺冠,威尔士公开赛奖金出炉:小司机180万 赵心童8

越岭寻踪
2026-03-02 05:56:56
3月1日晚间,多家上市公司发布重大利好利空好消息

3月1日晚间,多家上市公司发布重大利好利空好消息

A股数据表
2026-03-01 17:33:53
伊朗用血泪换来的教训:一旦中美开战,中国必须首先锁定这一点

伊朗用血泪换来的教训:一旦中美开战,中国必须首先锁定这一点

冷峻视角下的世界
2026-02-20 07:45:35
哈梅内伊全家死伤惨重!30枚炸弹炸出三个巨大地洞:一定藏有内奸

哈梅内伊全家死伤惨重!30枚炸弹炸出三个巨大地洞:一定藏有内奸

诺诺谈史
2026-03-01 11:21:42
2026-03-02 08:32:49
观察者网 incentive-icons
观察者网
全球视野,中国关怀
135371文章数 1849955关注度
往期回顾 全部

科技要闻

荣耀发布机器人手机、折叠屏、人形机器人

头条要闻

美军动用新型武器:山寨伊朗的

头条要闻

美军动用新型武器:山寨伊朗的

体育要闻

火箭输给热火:乌度卡又输斯波教练

娱乐要闻

黄景瑜 李雪健坐镇!38集犯罪大剧来袭

财经要闻

中东局势升级 如何影响A股、黄金和原油

汽车要闻

理想汽车2月交付26421辆 历史累计交付超159万辆

态度原创

手机
旅游
本地
公开课
军事航空

手机要闻

全球首款机器人手机!荣耀Robot Phone亮相MWC:今年就量产发布

旅游要闻

唐风演出、手作体验 沉浸式花灯游变身文旅消费新热点

本地新闻

津南好·四时总相宜

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊朗前总统内贾德遇袭身亡

无障碍浏览 进入关怀版