网易首页 > 网易号 > 正文 申请入驻

复旦大学副教授郑骁庆谈DeepSeek:AI行业不只有“规模法则”,开源将加速模型更新,芯片需求可能不降反增

0
分享至

图片来源:视觉中国

近日,中国AI初创公司深度求索(DeepSeek)在全球掀起波澜,硅谷巨头恐慌,华尔街焦虑。

短短一个月内,DeepSeek-V3和DeepSeek-R1两款大模型相继推出,其成本与动辄数亿甚至上百亿美元的国外大模型项目相比堪称低廉,而性能与国外顶尖模型相当。

作为“AI界的拼多多”,DeepSeek还动摇了英伟达的“算力信仰”,旗下模型DeepSeek-V3仅使用2048块英伟达H800 GPU,在短短两个月内训练完成。除了性价比超高,DeepSeek得到如此高的关注度,还有另一个原因——开源。DeepSeek彻底打破了以往大型语言模型被少数公司垄断的局面。

被誉为“深度学习三巨头”之一的杨立昆(Yann LeCun)在社交平台X上表示,这不是中国追赶美国的问题,而是开源追赶闭源的问题。OpenAI首席执行官萨姆·奥尔特曼(Sam Altman)则罕见地表态称,OpenAI在开源AI软件方面“一直站在历史的错误一边”。

DeepSeek具有哪些创新之处?DeepSeek的开源策略对行业有何影响?算力与硬件的主导地位是否会逐渐被削弱?

针对上述疑问,《每日经济新闻》记者(以下简称NBD)专访了复旦大学计算机学院副教授、博士生导师郑骁庆。他认为,DeepSeek在工程优化方面取得了显著成果,特别是在降低训练和推理成本方面。“在业界存在着两个法则,一个是规模法则(Scaling Law),另外一个法则是指,随着技术的不断发展,在既有技术基础上持续改进,能够大幅降低成本。”

对于DeepSeek选择的开源策略,郑骁庆指出,“开源模型能够吸引全世界顶尖人才进行优化,对模型的更新和迭代有加速作用。”此外,开源模型的透明性有助于消除使用安全的顾虑,促进全球范围内人工智能技术的公平应用。

尽管DeepSeek的模型降低了算力需求,但郑骁庆强调,AI模型仍需要一定的硬件基础来支持大规模训练和推理。此外,大规模数据中心和预训练仍是AI发展的重要组成部分,但未来可能会更注重高质量数据的微调和强化学习。

郑骁庆 图片来源:受访者供图

规模法则之外,还有另一个法则

NBD:微软CEO萨提亚·纳德拉在微软2024年第四季度财报电话会上提到,DeepSeek“有一些真正的创新”。在您看来,DeepSeek有哪些创新点呢?

郑骁庆:在深入研读DeepSeek的技术报告后,我们发现,DeepSeek在降低模型训练和推理成本方面采用的方法,大多基于业界已有的技术探索。比如,键值缓存(Key-Value cache)管理,对缓存数据进行压缩。另一个是混合专家模型(MoE,Mixture of Experts),实际上是指,在推理的时候,只需使用模型的某一个特定的模块,而不需要所有模型的网络结构和参数都参与这个推理过程。

此外,Deepseek还采用了FP8混合精度训练的技术手段。这些其实之前都有所探索,而DeepSeek的创新之处就在于,很好地将这些能够降低技术和推理成本的技术整合起来

NBD:您认为DeepSeek现阶段的技术水平上是否已经接近或者达到了全球领先水平呢?

郑骁庆:DeepSeek目前在现有技术基础上,包括网络结构训练算法方面,实现了一种阶段性的改进,并非是一种本质上的颠覆性创新,这一点是比较明确的。其改进主要是针对特定任务,例如,DeepSeek在数学、代码处理以及推理任务等方面,提出了一种在性能与成本上相对平衡的解决方案。然而,它在开放领域(open domain)上的表现,优势并不是十分明显。

在业界存在着两个法则,一个是规模法则(Scaling Law),即模型的参数规模越大、训练数据越多,模型就会更好。另外一个法则是指,随着技术的不断发展,在既有技术基础上持续改进,能够大幅降低成本

比如说,以GPT-3为例,早期它的成本就很高。但随着研究的深入,研究人员逐渐清楚哪些东西是工作的,哪些东西是不工作的。研究人员基于过往的成功经验,研究目标会逐渐清晰,成本实际上也会随之降低。

DeepSeek的成功,我更觉得可能是工程优化上的成功。当然也非常高兴看到中国的科技企业在大模型的时代,在性能与成本的平衡方面取得了显著进展,不断推动大模型的使用和训练成本下降。符合刚才我提到的第二个法则的情况之下,走到世界前列。

DeepSeek有效平衡性能和成本,但对芯片需求影响不大

NBD:DeepSeek旗下模型的最大亮点之一是在训练和推理过程中显著降低了算力需求。您认为这种低成本大效能的技术创新,长期来看,会对英伟达等芯片公司产生什么影响呢?

郑骁庆:我个人认为,它并不会对芯片采购量或出货量产生太大的影响

首先,像DeepSeek或者类似的公司,在寻找有效的整合解决方案时,需要进行大量的前期研究与消融实验。所谓的消融实验,即指通过一系列测试来确定哪个方案是有效的以及哪些方案的整合是有效的。而这些测试就非常依赖于芯片,因为芯片越多,迭代次数就越多,就越容易知道哪个东西工作或者哪个东西不工作。

比如说,DeepSeek的训练预算不到600万美元。它的技术报告中提到,不到600万美元的资金,是按照GPU的小时数(每小时两美元)来估算的。也就是说,他们基于之前的很多研究,把整条训练流程都已经搞清楚的情况之下(哪些是工作,哪些不工作的),重新走一遍。它的GPU的运算速度是多少,运算小时数是多少,然后再乘以每小时两美元得到的这个结果。报告中也提到了,600万美元其实没有包含先期研究成本,比如,在结构上的探索、在算法上的探索、在数据上采收集上的探索的成本,也没有涵盖消融实验的开销以及设备的折旧费。所以,我个人判断,对英伟达其实影响不是那么大。

另外,DeepSeek的研究表明,很多中小企业都能用得起这样的大模型。尽管训练成本的下降可能会暂时减少对GPU的需求,但大模型变得更加经济,会使原本因为模型成本太高而不打算使用大模型的企业,加入到使用模型的行列,反而会增加对于芯片的需求

NBD:随着DeepSeek-V3、R1等低成本大模型的问世,传统的大规模数据中心和高投入的大模型训练是否仍然值得继续推进呢?

郑骁庆:我觉得仍然值得。因为首先DeepSeek模型是语言模型,还没有扩展到多模态,甚至于我们以后要研究世界模型。那么一旦引入多模态之后,对算力的要求和基础设施要求就会成指数的增长。因为人工智能不可能仅仅局限于语言体本身,语言只是智慧的一种表现,而在这方面的探索仍然需要这样的一个基础设施。

刚才也提到DeepSeek其实是在很多先期研究的基础之上,找到了一条性能和成本平衡的一个解决方案。先期研究包括各种各样的尝试,怎样去加速它呢?这个还是需要强大的硬件支持。否则,每迭代一次,就可能需要长达一年多的时间,这显然是无法赶上现在AI军备竞赛的。而如果有几万张卡,迭代可能几天就完成了。

另外就是应用方面。即便是模型的推理成本再低,当需要支持数千、数万甚至更大规模的并发使用时,仍然需要一个配备大量显卡的强大基础架构来确保稳定运行。

我觉得大规模预训练这一波潮流可能会弱化,可能不会成为下一步大家争夺的主战场。之前这个领域曾是竞争激烈的战场,但现在看来,成本和产出之间的比例正逐渐趋于紧缩。但是后面两步——高质量数据的微调和基于强化学习的人类偏好对齐,我相信未来会有更多的投入

图片来源:视觉中国

开源加速模型更新和迭代,降低安全顾虑

NBD:DeepSeek采用开源模式,与许多国外大模型巨头闭源的做法不同。您怎么看开源模型在推动AI行业发展中的作用?

郑骁庆:DeepSeek目前受到了广泛地关注和认可。从开源模型与闭源模型的角度来看,我们观察到,开源模型在积累了以往研究成果的基础上,在目标明确的情况之下,借助于各种训练技巧以及模型结构上的优化,特别是吸收先前研究者在大模型领域已验证有效的原理和方法,开源模型已能够大致追上闭源模型

开源模型最大的好处就在于,一旦模型开源,全球的顶尖人才都能基于这些代码进行进一步的迭代与优化,这无疑加速了这个模型的更新与发展进程。相比之下,闭源模型肯定是没有这样的能力的,只能靠拥有这个闭源模型所属机构的内部人才去推动模型的迭代,迭代速度相对受限。

另外,开源模型透明开放,也缓解了公众对于大模型使用安全的一些顾虑。如果模型闭源,大家在使用过程当中可能或多或少会有一些顾虑。而且开源模型对于人工智能的普及以及全球范围内的公平应用起到了非常好的促进作用,特别是技术平权方面。也就是说,当一项科学技术发展起来以后,全世界的人,不管来自哪个国家、身处何地,都应用享有平等地享受这种技术所带来的优势及其产生的经济效益

现在的AI竞争是在中国的中国人和在美国的中国人竞争

NBD:DeepSeek团队成员多为国内顶尖高校的应届毕业生、在校博士生。您认为中国AI是否存在独特的竞争优势?

郑骁庆:我觉得我们的AI上面的竞争优势,其实是我们的人才数量上的优势。这几年,从我个人来看,我们的高等教育,包括硕士、博士的培养,有了长足进步。现在从中国的头部高校来看,对博士生、硕士生的培养已经比较接近于美国

在这样的情况之下,我们的基础高等教育质量的提升,使得我们储备了大量的人才。在这样的过程当中,我们能够对现有的技术进行迅速的消化。

实际上,美国许多大模型研究团队,不乏有华人的身影。大家开玩笑说,现在的人工智能竞争是在中国的中国人和在美国的中国人竞争。要说劣势,其实我觉得还是很遗憾的,那就是我们很少能有颠覆性的创新。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
外交部发言人反问日媒:“你见过有人未经允许持刀进入使馆与大使交谈的先例吗?”

外交部发言人反问日媒:“你见过有人未经允许持刀进入使馆与大使交谈的先例吗?”

环球网资讯
2026-03-25 15:39:26
曝张雪峰在苏州举办葬礼,生前最后一次直播,趴桌子上身体已不适

曝张雪峰在苏州举办葬礼,生前最后一次直播,趴桌子上身体已不适

180视角
2026-03-25 16:58:57
语出惊人!摩根大通CEO戴蒙称,伊朗战争长期来看是好事!为什么这样说?

语出惊人!摩根大通CEO戴蒙称,伊朗战争长期来看是好事!为什么这样说?

王爷说图表
2026-03-25 18:51:12
张雪峰突然去世!博士妻子李丽婧饱受非议上热搜,或面临3个选择

张雪峰突然去世!博士妻子李丽婧饱受非议上热搜,或面临3个选择

火山詩话
2026-03-25 16:14:23
俄乌战争四年多,回头看看他们当初说的假话

俄乌战争四年多,回头看看他们当初说的假话

涛哥锐评
2026-03-26 17:47:45
“中园石化”被立案调查

“中园石化”被立案调查

每日经济新闻
2026-03-25 11:13:18
黄仁勋呼吁所有人使用AI提升自己:大学生毕业时都要成AI专家

黄仁勋呼吁所有人使用AI提升自己:大学生毕业时都要成AI专家

快科技
2026-03-24 22:46:04
炸裂!张雪峰遗产分配爆出大瓜

炸裂!张雪峰遗产分配爆出大瓜

互联网品牌官
2026-03-26 12:21:26
中美卫星导航用户数量悬殊:GPS用户数超60亿,中国北斗令人意外

中美卫星导航用户数量悬殊:GPS用户数超60亿,中国北斗令人意外

混沌录
2026-03-18 23:54:31
五枚导弹,拦下四枚,就那漏网的一枚,不偏不倚,正好砸中…

五枚导弹,拦下四枚,就那漏网的一枚,不偏不倚,正好砸中…

福建平子
2026-03-25 10:14:49
A股:上午冲到3937后再跳水,种种迹象表明,A股或迎更大调整行情?

A股:上午冲到3937后再跳水,种种迹象表明,A股或迎更大调整行情?

股市皆大事
2026-03-26 12:17:48
欧洲芯片巨头官宣:我已在中国大陆,制造40nm芯片了

欧洲芯片巨头官宣:我已在中国大陆,制造40nm芯片了

互联网.乱侃秀
2026-03-25 09:45:10
2-0晋级八强!中国女网15岁新星连续爆冷真猛:下一轮对决王曦雨

2-0晋级八强!中国女网15岁新星连续爆冷真猛:下一轮对决王曦雨

李喜林篮球绝杀
2026-03-26 17:04:26
释永信“开光”真相大白,过程不堪入目,易中天也有牵扯

释永信“开光”真相大白,过程不堪入目,易中天也有牵扯

寻墨阁
2026-03-25 11:39:10
突发!上海最大商场砸的62亿悬了!

突发!上海最大商场砸的62亿悬了!

新浪财经
2026-03-26 00:14:57
台积电突然断供?直接甩出“稀土”,外媒:这才是真正的杀手锏!

台积电突然断供?直接甩出“稀土”,外媒:这才是真正的杀手锏!

瑛派儿老黄
2026-03-24 18:56:06
稳居西部第二!马刺三大年轻核心,已成联盟无解难题!

稳居西部第二!马刺三大年轻核心,已成联盟无解难题!

田先生篮球
2026-03-26 14:23:29
抗炎才能抗癌!哈佛大学《自然》重磅:炎症会在身体留下长期记忆,显著增加未来患癌风险

抗炎才能抗癌!哈佛大学《自然》重磅:炎症会在身体留下长期记忆,显著增加未来患癌风险

医诺维
2026-03-26 17:00:54
北院裁定17年六个月,柯文哲去向已明,黄国昌说到做到,绿营急了

北院裁定17年六个月,柯文哲去向已明,黄国昌说到做到,绿营急了

爱看剧的阿峰
2026-03-26 16:32:02
伊朗重要人事任命,释放强烈信号!

伊朗重要人事任命,释放强烈信号!

斐君观点
2026-03-25 21:08:16
2026-03-26 19:27:00
每日经济新闻 incentive-icons
每日经济新闻
中国主流财经全媒体平台。
1518917文章数 2724760关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

原正部级刘慧被开除党籍:结交政治骗子 匿名诬告他人

头条要闻

原正部级刘慧被开除党籍:结交政治骗子 匿名诬告他人

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

数码
艺术
游戏
房产
军事航空

数码要闻

苹果MacBook Neo将重塑整个笔电行业!分析师纷纷强调:打不过

艺术要闻

哪一座桥不是风景?

《刺客信条》又一新作野心炸裂!三张地图横跨半个地球

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版