网易首页 > 网易号 > 正文 申请入驻

李飞飞团队“50美元”复现DeepSeek R1真相:基座为阿里云Qwen模型

0
分享至

《科创板日报》2月6日讯 (记者 毛明江 黄心怡) 今日一则关于人工智能领域的新闻引发广泛关注。

据报道,李飞飞等斯坦福大学和华盛顿大学的研究人员以不到50美元的云计算费用,成功训练出了一个名为s1的人工智能推理模型。该模型在数学和编码能力测试中的表现,据称与OpenAI的O1和DeepSeek的R1等尖端推理模型不相上下。

这一消息无疑在AI界投下了一颗重磅炸弹,真相究竟如何?

《科创板日报》记者调查和采访业内人士后发现,s1模型的训练并非从零开始,而是基于阿里云通义千问(Qwen)模型进行监督微调。这意味着,s1模型的神奇“低成本”,是建立在已具备强大能力的开源基础模型之上。

▍通义模型的“基座”作用

根据李飞飞等人的研究论文,s1模型的训练仅使用了1000个样本数据。按照业内共识,这一数据量在AI训练中可谓微乎其微,通常不足以训练出一个具备推理能力的模型。

青年AI科学家、上海交通大学人工智能学院谢伟迪副教授告诉《科创板日报》记者,如果仔细研究斯坦福s1的论文会发现,s1模型的神奇是以通义千问模型为基座进行微调,这1000个样本训练的作用更像是“锦上添花”,而非“从零开始”。

国内某知名大模型公司CEO也向《科创板日报》记者表示:“从论文原文来看,所谓用50美元训练出新的具有推理能力的模型,实际上只是用从谷歌模型中提炼出来的1000个样本,然后对通义千问模型进行监督微调。这种微调的成本确实很低,但明显是站在既有领先模型的‘肩上’才能做到。


斯坦福s1论文原文也注明模型是以阿里通义千问模型为基础微调

谢伟迪指出,国内外还有其他团队也声称用极低的成本,训练出了具有推理能力的新模型。但一阅读其论文原文,就会发现它们无一例外都是基于通义模型作为基座进行的。


国外多位人工智能研究者也指出,不少的“新”模型都是建立通义模型基础上

以通义千问模型作为基座,确实可以用很少的样本数据就达到产生新的推理模型的效果,但如果换成其他基座模型,新模型能力却没有任何的提升。所以,能力真正神奇的是Qwen模型,而不是s1。 ” 谢伟迪说。

▍低成本训练大模型有局限,但也是方向

尽管s1模型的低成本训练在某种程度上展示了AI训练的潜力,但其局限性也不容忽视。

首先,这种低成本训练依赖于已有的强大基座模型,如阿里通义千问模型。如果没有这样的基座模型,低成本训练的效果将大打折扣。

其次,1000个样本数据的训练量在大多数情况下是不够的,尤其是在需要处理复杂任务的场景中。

此外,低成本训练的成功也引发了对AI模型知识产权和伦理问题的讨论。如果越来越多的研究依赖于已有的基座模型进行微调,那么这些基座模型的开发者是否应该获得相应的回报?如何确保AI技术的公平使用和共享?这些问题都需要业界进一步探讨和解决。

尽管s1模型的低成本训练引发了争议,但其背后的研究思路无疑为AI领域提供了新的思考方向。

武汉人工智能学院一位资深研究人员向《科创板日报》记者表示,如何在保证模型性能的前提下,降低训练成本,是AI研究的一个重要课题。未来,随着技术的进步和算法的优化,或许我们真的能够看到更多低成本、高性能的AI模型问世。

责任编辑:李曦_NN2587

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
网传判决书曝光12场假球比赛!泰山4场焦点战最多 申花+江苏各2场

网传判决书曝光12场假球比赛!泰山4场焦点战最多 申花+江苏各2场

我爱英超
2025-03-22 22:02:32
重磅信号!中美,传来大消息!

重磅信号!中美,传来大消息!

证券时报
2025-03-22 08:06:03
全运会惊现11-0!国家队超级天才被省队打爆,队友呆了,教练无语

全运会惊现11-0!国家队超级天才被省队打爆,队友呆了,教练无语

嘴炮体坛
2025-03-22 18:47:05
港星打破沉默为李嘉诚事件发声,一针见血戳中痛点,诸多人鸣不平

港星打破沉默为李嘉诚事件发声,一针见血戳中痛点,诸多人鸣不平

蓝色海边
2025-03-22 12:27:27
继 315 后洗发水黑榜曝光!这几款 "烂发" 洗发水赶紧扔了

继 315 后洗发水黑榜曝光!这几款 "烂发" 洗发水赶紧扔了

晴晴给你讲故事
2025-03-22 11:33:05
中巴双方达成共识,大局基本已定,港媒趁热打铁,李嘉诚企业发声

中巴双方达成共识,大局基本已定,港媒趁热打铁,李嘉诚企业发声

游古史
2025-03-22 12:37:52
完成职业生涯突破!皮亚斯特里拿下F1中国大奖赛杆位

完成职业生涯突破!皮亚斯特里拿下F1中国大奖赛杆位

澎湃新闻
2025-03-22 16:28:28
加拿大选情突变,民调逆转

加拿大选情突变,民调逆转

寰宇大观察
2025-03-22 23:08:05
特朗普政府将终止50多万移民合法身份

特朗普政府将终止50多万移民合法身份

参考消息
2025-03-22 21:52:11
茶是老年痴呆的“催化剂”?医生反复强调:上了年纪,3种茶少喝

茶是老年痴呆的“催化剂”?医生反复强调:上了年纪,3种茶少喝

马蹄烫嘴说美食
2025-03-22 12:04:57
已确认离世,年仅32岁:老婆已崩溃,还有4个孩子

已确认离世,年仅32岁:老婆已崩溃,还有4个孩子

美芽
2025-03-21 19:34:49
汪小菲直播晒儿女,小玥儿穿新裙子气质大变,张兰或去台北陪孩子

汪小菲直播晒儿女,小玥儿穿新裙子气质大变,张兰或去台北陪孩子

心静物娱
2025-03-22 14:20:42
意媒:佛罗伦萨准备双倍年薪续约德赫亚1年,德赫亚满意当前环境

意媒:佛罗伦萨准备双倍年薪续约德赫亚1年,德赫亚满意当前环境

直播吧
2025-03-22 23:29:06
78岁易中天现状:被厦大返聘当院长,身体暴瘦,女儿是他的骄傲

78岁易中天现状:被厦大返聘当院长,身体暴瘦,女儿是他的骄傲

比利
2025-03-22 11:45:45
36岁景甜增肥后气质大变,脸肉肉地,更像清纯女大学生了!

36岁景甜增肥后气质大变,脸肉肉地,更像清纯女大学生了!

木子爱娱乐大号
2025-03-21 14:28:22
韩投票结果出来了,179票赞成!朴槿惠布好局了?尹锡悦痛心

韩投票结果出来了,179票赞成!朴槿惠布好局了?尹锡悦痛心

虹声天下
2025-03-22 17:38:26
中医药大学教授杨炳友去世,年仅54岁,2个月前还露面,死因惋惜

中医药大学教授杨炳友去世,年仅54岁,2个月前还露面,死因惋惜

归史
2025-03-22 15:03:59
23岁女生直播间疯狂打赏200万元!母亲被气进医院,退款遭平台拒绝

23岁女生直播间疯狂打赏200万元!母亲被气进医院,退款遭平台拒绝

新民周刊
2025-03-22 16:45:40
哈兰德:以色列是否应该入选,这种事情你别问我一个球员

哈兰德:以色列是否应该入选,这种事情你别问我一个球员

直播吧
2025-03-22 15:50:14
高潮来了!小米高管王腾连发两条微博,疑嘲讽余承东!评论区炸锅

高潮来了!小米高管王腾连发两条微博,疑嘲讽余承东!评论区炸锅

青青子衿
2025-03-22 02:44:24
2025-03-23 03:59:00
财联社 incentive-icons
财联社
以“准确、快速、权威、专业”为新闻准则,为投资者提供专业的投资资讯。
558929文章数 1006437关注度
往期回顾 全部

科技要闻

蔚来一年巨亏224亿!李斌解释了一个半小时

头条要闻

女生直播间打赏200万把母亲气进医院 退款遭平台拒绝

头条要闻

女生直播间打赏200万把母亲气进医院 退款遭平台拒绝

体育要闻

生涯突破!皮亚斯特里夺F1中国站杆位

娱乐要闻

大S遗愿曝光!汪小菲曾打电话咆哮S妈

财经要闻

财报里的电商三巨头:AI豪赌

汽车要闻

艾瑞泽8 PRO 10.39万起 动力拉满豪华平权

态度原创

数码
艺术
健康
手机
军事航空

数码要闻

翻开即是大屏,苹果新专利展示可折叠Apple Watch构想

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

护龈工具大PK,冠军会花落谁家?

手机要闻

三星Galaxy S25 edge跑分曝光 高频骁龙8至尊版

军事要闻

F-47的千亿大订单"花落"波音

无障碍浏览 进入关怀版