网易首页 > 网易号 > 正文 申请入驻

为什么李飞飞团队经常cue通义千问?

0
分享至

   作者 | summer
邮箱 | huangxiaoyi@pingwest.com

  Qwen 3还未发布,但已发布的Qwen系列含金量还在上升。

  2个月前,李飞飞团队基于Qwen2.5-32B-Instruct 模型,以不到50美元的成本训练出新模型 S1-32B,取得了与 OpenAI 的 o1 和 DeepSeek 的 R1 等尖端推理模型数学及编码能力相当的效果。如今,他们的视线再次投向了这个国产模型。

  在李飞飞联合领导的斯坦福大学以人为本人工智能研究所(Stanford HAI)最新发布的《2025年人工智能指数报告》(Artificial Intelligence Index Report 2025)中,Qwen系列再度引人注目。

  作为人工智能最权威的资源之一,AI Index已经发布了八版,随着人工智能对社会、经济和全球治理的影响力不断加强,今年的报告也成为迄今为止最为全面的版本。其中,提到的一个重要观察就是:中美顶级大模型的差距急剧缩小。

  结合多个榜单来看,在MMLU测试中,中美性能差异从2023年底的17.5%,锐减至2024年底的0.3%;数学能力测试MATH差异从24.3%缩至1.6%;代码能力评估HumanEval差异从31.6%降至仅3.7%;在Chatbot Arena平台上,2024年1月的9.26%差距,到2025年2月仅剩1.70%。

  而DS 和Qwen,就是中国模型性能提升的重要力量。

  报告评选出的2024年重要大模型(Notable Models)中,国产大模型一共5家,分别是阿里、字节、DeepSeek、腾讯、智谱。其中,阿里以6款模型入选,位列全球贡献第三,仅次于谷歌和OpenAI的7款。

  在多个维度的全球AI发展比较中,Qwen都占据着重要位置,成为了继DeepSeek之后被提及最多的中国AI模型。

  不断被Cue的Qwen,正在凭借模型性能、开源力度、生态适配赢得更多的认可。

  1

  多个模型被评,Qwen扛起国产大旗

  该报告由Research and Development、Technical Performance、Responsible Al、Economy、Science and Medicine、Policy and Governance、Education、Public Opinion十个核心章节构成,每个章节深入分析了AI领域的特定维度,并提炼出相应领域的关键趋势结论。

  总体来看,AI发展呈现出明显的“更大、更多、更强”趋势,但中美模型在技术路径上却展现出不同特点。

  参数维度上,自2010 年代初以来,参数数量始终在急剧增加。这反映了大模型的架构日益复杂、数据可用性的提高、硬件的改进以及Scaling Law的有效性。特别是,相比学术和产学结合领域,大参数模型在工业领域尤为引人注目,显示出工业界有着充足的可覆盖训练成本的资金实力。

  随着模型参数数量的增加,用于训练 AI 系统的数据量也在暴涨。从时间线来看,引发了大型语言模型革命的Transformer模型于2017年发布,使用了约 20 亿个tokens进行训练,2020年支撑原始 ChatGPT 模型之一的GPT-3,使用了3740亿tokens,再到2024年Llama 3.3,使用了15万亿tokens。据Epoch AI统计,LLM训练数据集大小约每8个月翻一番。

  在报告列出的重要大模型中,Llama3.1-405B和Qwen2.5-72B、DeepSeek-V3训练数据量几乎并列第一。

  在这一背景下,一个有趣的现象出现了:美国顶级AI模型的训练计算资源通常远高于中国模型。根据Epoch AI的数据,中国前10名模型的计算资源扩张速度约为每年3倍,显著低于全球平均水平的每年5倍。

  广为人知的是DeepSeek V3的出圈,正是因为其极高的性能,但只需要远少于许多领先LLM的计算资源。实际上,不止V3,国产模型中的Qwen2.5-72B、Doubao-pro都显著低于Claude 3.5 Sonnet、Grok-2等等。

  除此之外,Qwen2.5-Coder-32B、Qwen2.5-plus-1127的代码领域,Qwen-Max-0428的复杂任务处理、Qwen2 (72B)的上下文能力,Qwen1.5 Chat (72B)的模型安全性领域,均获得了关注。

  有一个值得讨论的模型还不够,Qwen有一堆。

  1

  曾经Qwen和Llama二分的天下,现在是Qwen的了?

  比起冰冷的数据说明,开发者堆Qwen的偏爱来得更早更直接。

  李飞飞团队基于Qwen模型复刻R1的成员之一Niklas也曾在社交平台上赞叹:“Qwen is amazing!”

  此外,在R1的复现方案里,大部分都是基于Qwen的,包括simpleRL-reason、open-r1、tinyzero、oatzero、open-thought、logit-rl和Open-Reasoner-Zero等等。这一现象不仅体现了研究人员对Qwen基础能力的高度认可,也从侧面证明了其在推理能力上的优越性。

  在更广泛的开源社区中,Qwen系列模型几乎占据了热门榜单前列,成为开发者的首选工具。截至目前,Qwen在全球的衍生模型数量已突破10万,超越美国Llama成为世界第一开源大模型。

  这一成就不仅体现在数量上,更反映在多样性上。自2023年8月首次开源以来,阿里通义实验室已推出200多款模型,覆盖了从基础模型、对话模型到强化学习模型和多模态模型的全方位布局,覆盖从0.5B到110B等的“全尺寸”,几乎囊括了所有可能的应用场景,获得了企业端客户的青睐。

  “我们在各个场景都用到了Qwen系列的模型。”汇智智能提到,按模型和业务的匹配程度划分,“Qwen-Turbo作为性价比超高的模型,适用于构建使用量大的聊天助手;Qwen-Max最为旗舰产品,回答效果与能力突出,适用于B端商户,提升服务质量;Qwen-QwQ用于推理场景,而且尺寸32B适用于企业的本地化部署;Qwen-VL和Qwen-Audio、Qwen-Omni识别多模态信息,和用户互动。”

  特别是丰富的小尺寸模型选择,为实际开发提供了极高的性价比方案。

  “模型太大跑不动,也没有必要,100B以下的模型在实际应用中更具优势。比如QwQ-32B,对很多企业场景而言,已经够用了,并且部署资源是DeepSeek R1的1/10。”一位中小企业技术人员提到。

  年初,DeepSeek的出现,推动了市场需求的爆发和商业化落地的进程,但在实际场景中,Qwen的尺寸灵活性成为显著优势。“以前,企业端的模型市场基本是Qwen和Llama的天下,但Llama已经比不上Qwen了。"一位企业开发者说道。

  模型尺寸的灵活选择、基础能力的可靠表现、生态工具的完善支持、企业级应用中的实际效果......这种偏好背后是多种因素的综合考量,企业们在选择或切换模型时,比起性能指标,更看重与业务场景的适配性和长期的迭代潜力。

  而这恰恰是Qwen的优势,开发者们正在用脚投票做出自己的选择。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
过气明星有多可怜?韦小宝韩栋无戏可拍,还不起房贷,当众哭红眼

过气明星有多可怜?韦小宝韩栋无戏可拍,还不起房贷,当众哭红眼

林轻吟
2026-05-27 08:04:39
费利佩连续无缘出战后公开发声!首次点名感谢蓉城主帅,引发热议

费利佩连续无缘出战后公开发声!首次点名感谢蓉城主帅,引发热议

振刚说足球
2026-05-28 08:59:04
比开塞露还管用!这3种“推屎”食物,每天吃一点,清空宿便

比开塞露还管用!这3种“推屎”食物,每天吃一点,清空宿便

白宸侃片
2026-05-19 11:56:50
这和不穿有啥区别?徐璐真空上阵,身材火辣,抢了所有女星风头!

这和不穿有啥区别?徐璐真空上阵,身材火辣,抢了所有女星风头!

川渝视觉
2026-05-27 22:29:45
75岁传奇歌手自曝:健康恶化后仍想发新歌,但巡演不敢想

75岁传奇歌手自曝:健康恶化后仍想发新歌,但巡演不敢想

赴一场山海啊
2026-05-27 01:44:40
法网诞生大逆转!19岁小将0比2绝境翻盘,德约科维奇再创纪录

法网诞生大逆转!19岁小将0比2绝境翻盘,德约科维奇再创纪录

舟望停云
2026-05-28 11:15:51
湖南两钓鱼佬被冲走,遗体被打捞,知情人曝细节,网友:自作自受

湖南两钓鱼佬被冲走,遗体被打捞,知情人曝细节,网友:自作自受

青橘罐头
2026-05-28 07:40:21
我去医院探望植物人嫂子,护工偷偷塞来字条:去查上周的监控录像

我去医院探望植物人嫂子,护工偷偷塞来字条:去查上周的监控录像

纸鸢奇谭
2026-05-21 17:44:37
破防!文班赛后直接拒绝采访!

破防!文班赛后直接拒绝采访!

柚子说球
2026-05-27 19:50:11
不能二次加热的6种食物!医生提醒:吃不完或倒掉,别乱节俭

不能二次加热的6种食物!医生提醒:吃不完或倒掉,别乱节俭

冷眼看世界728
2026-05-12 20:46:26
埃梅里:英超是最难踢的联赛;欧冠决赛?阿森纳和巴黎五五开

埃梅里:英超是最难踢的联赛;欧冠决赛?阿森纳和巴黎五五开

懂球帝
2026-05-27 16:37:11
海参崴兄弟俩被授予“乌克兰英雄”!战场坚守至最后一刻

海参崴兄弟俩被授予“乌克兰英雄”!战场坚守至最后一刻

项鹏飞
2026-05-26 18:28:15
董卿被传离婚6年后,婚姻真相大白,如今隐居上海,低调陪父母

董卿被传离婚6年后,婚姻真相大白,如今隐居上海,低调陪父母

寻墨阁
2026-04-16 02:57:15
户籍制度改革,可能真的要来了

户籍制度改革,可能真的要来了

黑噪音
2026-05-27 22:26:33
3分钟倾家荡产?年入千亿的“精神鸦片”正精准榨干中国人的钱包

3分钟倾家荡产?年入千亿的“精神鸦片”正精准榨干中国人的钱包

大鱼简科
2026-05-13 14:26:55
穷兵黩武、拖垮经济:看不到战争尽头,俄精英权贵开始对普京不满

穷兵黩武、拖垮经济:看不到战争尽头,俄精英权贵开始对普京不满

一家说
2026-05-27 11:48:14
“割四赔五”?湖北大娘讹收割机后续,警方介入,当地人再曝恶行

“割四赔五”?湖北大娘讹收割机后续,警方介入,当地人再曝恶行

阅尽天下大事
2026-05-28 05:43:29
黄仁勋:“全场我买单,能不能先让我拿一根?”

黄仁勋:“全场我买单,能不能先让我拿一根?”

第一财经资讯
2026-05-28 11:15:22
郑恺李晨终止合作冲上热搜,12年奔跑吧宣发画句号,网友吵翻了

郑恺李晨终止合作冲上热搜,12年奔跑吧宣发画句号,网友吵翻了

TVB的四小花
2026-05-28 13:21:59
2-3!马刺输天王山!裁判MVP,看看专家怎么说:保送雷霆,我的天

2-3!马刺输天王山!裁判MVP,看看专家怎么说:保送雷霆,我的天

凡知
2026-05-28 12:46:55
2026-05-28 14:03:00
硅星人 incentive-icons
硅星人
硅(Si)是创造未来的基础,欢迎来到这个星球。
3115文章数 10500关注度
往期回顾 全部

科技要闻

台积电3纳米下半年涨价15% 明年或再涨10%

头条要闻

民进党发言人称受不了国台办 陈斌华回应时战术性喝水

头条要闻

民进党发言人称受不了国台办 陈斌华回应时战术性喝水

体育要闻

如果雷霆拼图是这水平 马刺确实打不过

娱乐要闻

曝大嫂冒充七七同学,林俊杰删掉合照

财经要闻

长鑫科技IPO过会,市值会到几万亿?

汽车要闻

限时补贴价9.28-10.98万 MG 4X正式上市

态度原创

旅游
游戏
艺术
教育
军事航空

旅游要闻

博主“硬刚”稻城亚丁:景区截断38公里省道 必须交120元坐观光车进入 当地多部门已介入调查

V社官宣掌机涨价1千6!黑心商人割韭菜还是心里苦?

艺术要闻

蚂蚁新总部封顶了!大圆环到底有啥魔力

教育要闻

五年级,不少人却无从下手,学会方法直接心算

军事要闻

美锁定伊朗打击新目标 考虑重启军事行动

无障碍浏览 进入关怀版