网易首页 > 网易号 > 正文 申请入驻

最新!Qwen 3 GPQA跑分接近DeepSeek R1:仅用三分之一参数

0
分享至

大模型独立分析公司Artificial Analysis对Qwen3 在GPQA数据集最新评估来了!

GPQA- 全称: Graduate-Level Google-Proof Q&A (研究生水平、防谷歌搜索问答)

核心目标: 评估大型语言模型(LLMs)是否真正具备专家级别的知识理解和复杂的推理能力,而不仅仅是信息检索或模式匹配。它旨在衡量模型能否像一个领域专家那样思考和解决问题

GPQA Diamond 是从高难度 GPQA 基准测试中精选出的、难度最高的一部分问题,专门用于在需要专家级知识和复杂推理的极限挑战场景下,严格区分和衡量顶尖 AI 模型的真实能力上限

初步结果如下:

Qwen3:开源权重与效率的双重胜利

Qwen3 系列混合推理模型是一次重要的发布。这些模型仅用约 DeepSeek R1 三分之一的总参数量,其 GPQA 得分便能接近后者,同时还提供了一系列适用于计算资源受限环境的小型模型。

阿里发布了八款不同规模和架构的混合推理模型。这些模型的一大特点是可以在回答前选择性地开启“思考”模式。模型参数规模覆盖范围广泛,从 0.6B(十亿)参数的密集模型,一直到拥有 235B 总参数和 22B 激活参数的 MoE(混合专家)模型。

初步评估结果显示,所有 Qwen3 模型在其各自的参数规模级别上都展现出强大的竞争力。特别值得一提的是,235B-A22B 版本虽然参数量显著少于 DeepSeek R1(后者总参数 671B,激活参数 37B),但其性能表现已十分接近

Artificial Analysis已经启动了评估流程,并完成了对以下三款模型在开启推理(Reasoning)模式下的 GPQA Diamond 基准测试:

Qwen3 235B-A22B (推理模式):得分 70%,与 DeepSeek R1 和 Gemini 2.5 Flash (推理模式) 的表现相当。相比阿里此前表现最好的模型 Qwen1.5-32B(在我们 GPQA Diamond 评估中得分 59%),这是一个显著的飞跃

Qwen3 30B-A3B (推理模式):得分 62%,表现紧随顶尖的非推理模型 DeepSeek V3 0324 和 Llama 4 Maverick 之后。考虑到这款模型仅有 3B 激活参数,其表现非常亮眼——作为对比,同类竞品模型的规模要大得多(DeepSeek V3 03-24 总参数 671B,激活参数 37B;Llama 4 Maverick 总参数 402B,激活参数 17B)。Qwen3-32B 密集模型也将很快发布

Qwen3-14B (推理模式):得分 60%,表现与 Llama 4 Scout 相当,但其总参数和激活参数都更少(Qwen3 为 14B/14B,而 Scout 为 109B/17B)

Qwen3 丰富的模型尺寸梯度能够满足从端侧设备(覆盖 8B、4B、1.7B、0.6B 模型)到大型服务器节点(如用于 235B 模型的 8xH100 DGX)的各种部署环境需求。这对开源权重社区而言是又一重大利好

针对 Qwen3 全系列模型(包含开启和关闭推理模式)的 7 项完整评估结果也会很快发布

⭐星标AI寒武纪,好内容不错过

用你的在看告诉我~

求赞

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
两名女孩扶人被索赔22万,媒体公众皆反对,但老太太占尽法律优势

两名女孩扶人被索赔22万,媒体公众皆反对,但老太太占尽法律优势

读鬼笔记
2026-02-21 09:37:52
整个西方都炸了,中国男人,全球最高级的一群人

整个西方都炸了,中国男人,全球最高级的一群人

毛豆论道
2026-02-20 20:49:13
湛江妈祖事件持续发酵!许老板坐不住了,得罪两广、福建的生意人

湛江妈祖事件持续发酵!许老板坐不住了,得罪两广、福建的生意人

火山詩话
2026-02-21 05:13:01
突发!特朗普:对全球输美商品加征10%的关税!银价暴涨,金价大涨

突发!特朗普:对全球输美商品加征10%的关税!银价暴涨,金价大涨

金融界
2026-02-21 08:13:12
谷爱凌惹上麻烦了

谷爱凌惹上麻烦了

行者殷涛
2026-02-20 20:16:47
发现一个悲哀现象:中国的长寿老人,几乎都是子女用生命在托举

发现一个悲哀现象:中国的长寿老人,几乎都是子女用生命在托举

谈史论天地
2026-02-21 08:33:48
女子除夕夜通过监控看到父亲对着空桌独自吃饺子,第二天与弟弟驱车800公里回家,“回家后爸爸哭了”

女子除夕夜通过监控看到父亲对着空桌独自吃饺子,第二天与弟弟驱车800公里回家,“回家后爸爸哭了”

极目新闻
2026-02-20 22:30:02
贝加尔湖底的七名中国游客,本来是可以不用死的

贝加尔湖底的七名中国游客,本来是可以不用死的

未来展望
2026-02-21 00:23:41
贝加尔湖事故遇难者遗体已被发现,涉事司机为44岁当地男子,系私下接单;获救者是来自江苏省的一位男性

贝加尔湖事故遇难者遗体已被发现,涉事司机为44岁当地男子,系私下接单;获救者是来自江苏省的一位男性

都市快报橙柿互动
2026-02-21 00:08:59
80+15+24!湖人三巨头爆发,伦纳德31分&伤退,新援轰26分难救主

80+15+24!湖人三巨头爆发,伦纳德31分&伤退,新援轰26分难救主

球盲姐
2026-02-21 14:43:15
伊朗已经下定决心,抢在美国动手之前,把俄罗斯牢牢绑在战车上

伊朗已经下定决心,抢在美国动手之前,把俄罗斯牢牢绑在战车上

东极妙严
2026-02-20 15:17:46
42死300伤!北海道暴雪困住中国游客,有人喊话:祖国包机来接人

42死300伤!北海道暴雪困住中国游客,有人喊话:祖国包机来接人

青眼财经
2026-02-20 23:31:25
那艺娜被认定劣迹艺人!靠说蹩脚中文,假扮俄罗斯美女走红

那艺娜被认定劣迹艺人!靠说蹩脚中文,假扮俄罗斯美女走红

韩小娱
2026-02-21 10:30:22
张纪中一家越南度假,74岁的他推婴儿车很吃力,杜星霖穿粉衣娇美

张纪中一家越南度假,74岁的他推婴儿车很吃力,杜星霖穿粉衣娇美

疯说时尚
2026-02-21 05:25:57
河北女婿到江西过年,大年初三吃泡面!满眼看去桌上全是辣菜,妻子:他说江西菜吃腻了

河北女婿到江西过年,大年初三吃泡面!满眼看去桌上全是辣菜,妻子:他说江西菜吃腻了

极目新闻
2026-02-20 17:01:59
“赶紧还钱!”关税政策被判违法后,加州州长呼吁美政府立即“连本带利”退还税款

“赶紧还钱!”关税政策被判违法后,加州州长呼吁美政府立即“连本带利”退还税款

环球网资讯
2026-02-21 09:38:25
狂炫5斤车厘子和红烧肉,12岁男孩进了重症监护室

狂炫5斤车厘子和红烧肉,12岁男孩进了重症监护室

现代快报
2026-02-21 13:58:06
太尴尬!广东网友哭诉大年初一在家族群发200元红包,退回79.17元

太尴尬!广东网友哭诉大年初一在家族群发200元红包,退回79.17元

火山詩话
2026-02-20 15:31:34
昆明海埂大坝“游客比海鸥还多”,管理方:建议乘坐公共交通前往

昆明海埂大坝“游客比海鸥还多”,管理方:建议乘坐公共交通前往

上游新闻
2026-02-21 13:43:15
“预见到伊朗的反应可能构成重大风险”,数百名美军士兵从乌代德空军基地撤离,五角大楼认为战争或持续超过12天

“预见到伊朗的反应可能构成重大风险”,数百名美军士兵从乌代德空军基地撤离,五角大楼认为战争或持续超过12天

极目新闻
2026-02-21 11:21:49
2026-02-21 15:04:49
AI寒武纪 incentive-icons
AI寒武纪
专注于人工智能,科技领域
1033文章数 396关注度
往期回顾 全部

科技要闻

智谱上市1月涨5倍,市值超越京东、快手

头条要闻

牛弹琴:一觉醒来世界大变 真急了的特朗普改新打法

头条要闻

牛弹琴:一觉醒来世界大变 真急了的特朗普改新打法

体育要闻

冬奥第一"海王"?一人和13国选手都有关系

娱乐要闻

镖人反超惊蛰无声拿下单日票房第二!

财经要闻

一觉醒来,世界大变,特朗普改新打法了

汽车要闻

比亚迪的“颜值担当”来了 方程豹首款轿车路跑信息曝光

态度原创

本地
艺术
房产
游戏
公开课

本地新闻

春花齐放2026:《骏马奔腾迎新岁》

艺术要闻

史洪生油画作品

房产要闻

窗前即地标!独占三亚湾C位 自贸港总裁行宫亮相

魔兽世界:两大热门版本入手难度最高的武器,90%的玩家没拿过!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版