网易首页 > 网易号 > 正文 申请入驻

最强数学大模型易主!阿里千问新模型成绩超GPT-4o

0
分享至

克雷西 发自 凹非寺
量子位 | 公众号 QbitAI

最强数学大模型,现在易主!

阿里千问大模型团队发布的Qwen2-Math,不仅超越了Llama 3.1-405B,也战胜了GPT-4o、Claude 3.5等一系列闭源模型。

而且还会解决竞赛级试题,在GPT-4只能做对一道的AIME 24中,Qwen2-Math答对的题目数量达到了两位数。

Qwen2-Math一共有三个参数量的版本——72B,7B和1.5B。

最强的72B版本,在MATH数据集上比GPT-4o多得了7分,按比例算高出了9.6%。

7B版本也用不到十分之一的参数量,超过了72B的开源数学模型NuminaMath

而且这个NuminaMath来头不小,它的7B版本在全球首届AIMO中获奖,奖项由数学大牛陶哲轩颁发

阿里高级算法专家林俊旸激动地宣布,千问团队把Qwen2模型变成了一个数学高手。

fast.ai创始人Jeremy Howard看了直呼amazing。

网友更是惊叹,原来这才是真正的“草莓”,这是开源的胜利,也是所有人的胜利。

超越GPT4o,会做竞赛级试题

如前文所说,Qwen2-Math共有72B、7B和1.5B三个参数规模,分别由对应规模的Qwen2基础模型改造而成。

在基础模型之上,团队使用精心设计的数学专用语料库进行了预训练,训练数据包含大规模高质量的数学网络文本、书籍、代码、考试题目,以及由Qwen2模型合成的数学预训练数据。

结果,在GSM8K、MATH等经典数学测试集上,Qwen2-Math-72B的数学能力都超过了405B的Llama-3.1

这些数据集,涉及到问题涵盖了代数、几何、计数与概率、数论等多种类型。

除了这些英文的数据集,Qwen2-Math还专门挑战了中文数据集CMATH,还有高考试题。

在中文数据集上,1.5B版本的成绩就超过了70B的Llama 3.1,而且三个版本相当于同规模的Qwen2基础模型,成绩都有明显提升。

在Qwen2-Math的基础之上,千问团队还微调出了Instruct版本。

具体来说,团队基于Qwen2-Math-72B训练一个数学专用的奖励模型,将奖励信号与正误判断信号结合作为学习标签,再通过拒绝采样构建监督微调(SFT)数据,最后在SFT模型基础上使用GRPO方法优化。

在MATH数据集上的零样本测试显示,1.5B的Instruct就能取得70%的准确率,比70B的Llama 3.1还高

此外,研究团队还引入了难度更大的OlympiadBench、CollegeMath和英译版高考试题等更困难的测试集。

作者让Qwen2-Math采用了贪心(greedy)、RM@8和Maj@8三种策略,结果无论是哪一种,Qwen2-Math的成绩全都超过了同规模的Llama 3.1。

中文数据集方面,Qwen2-Math还挑战了今年最新的中高考试题,与Llama 3.1相比优势十分明显。

值得一提的是,为了减少测试成绩当中的“水分”,千问团队专门从训练数据集中去除了所有和测试集重叠的部分

而且除了精确匹配,还运用了更严格的13-gram去重策略,只要最长公共序列的比率应大于0.6就会被去除。

后训练的过程也是如此,涉及的数据集,甚至测试成绩中没展示的Aqua、SAT Math,全都被从数据当中剔除。

另外,Qwen2-Math-Instruct已经具备了解决一些简单的竞赛级试题的能力。

比如在AIME 24的30道题当中,Qwen2-Math-72B-Instruct用rm@256策略能够做对11道

像GPT-4 Turbo、Claude 3 Opus和Gemini 1.5 PRo这些先进模型都只能做对一两道。

而且最小的1.5B版本也能在rm@256的条件下做对五道题,已经超过了这三家模型。

另外,Gemini 1.5 Pro有一个专门针对数学任务的版本,但也只能做对七八道题目,Qwen2-Math-72B-Instruct是第一个做对的题目数量达到两位数的模型

在官方文档中,千问团队也展示了一些示例,比如奥赛级数学测试集Math Odyssey当中有这样一道题目。

这道题目涉及到组合数学和图论,具体又包括了完全图、二部图等概念。

此外还需要理解如何将这些概念应用于特定性质结构的构建,需要较强的抽象思维能力和对图论结构的深刻理解。

Qwen2-Math的解决方案是这样的,从中可以看出确实是运用到了图论方法。

最终,Qwen2-Math正确地回答了这道题目。

△中文为机翻,仅供参考

不过,目前发布的Qwen2-Math主要针对英文场景,中英双语版本将会在之后推出。

另外,根据Qwen2-Math的许可协议,该模型对大部分用户来说可以免费商用,但对于72B版本,如果每月活跃用户数超过1亿,就需要向千问团队申请许可了。

项目主页:
https://qwenlm.github.io/zh/blog/qwen2-math/
参考链接:
https://x.com/JustinLin610/status/1821554112192012291

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
知乎热评:今年失业的人失业后都在干什么?看完评论我泪目了!

知乎热评:今年失业的人失业后都在干什么?看完评论我泪目了!

另子维爱读史
2026-01-20 20:26:06
中央定调!退休新规实施,公务员事业单位不能申请延退,啥原因?

中央定调!退休新规实施,公务员事业单位不能申请延退,啥原因?

社保小达人
2026-01-20 10:50:09
彭啸向余望王钰栋破门U23国足3:0完胜越南,安东尼奥一战封神

彭啸向余望王钰栋破门U23国足3:0完胜越南,安东尼奥一战封神

李广专业体育评论
2026-01-21 01:31:55
接受捐款仅2天,官媒就对李亚鹏用了特殊称呼,没给他留一丝体面

接受捐款仅2天,官媒就对李亚鹏用了特殊称呼,没给他留一丝体面

削桐作琴
2026-01-20 19:11:44
梁小龙被曝离世1天,私生活被扒底朝天,原来他和杨少华处境一样

梁小龙被曝离世1天,私生活被扒底朝天,原来他和杨少华处境一样

嘴角上翘的弧度
2026-01-21 01:56:50
日本国债收益率上涨

日本国债收益率上涨

界面新闻
2026-01-20 09:15:39
“妈妈,我好累,让我睡一分钟吧”话刚说完,孩子就这样离开了

“妈妈,我好累,让我睡一分钟吧”话刚说完,孩子就这样离开了

大果小果妈妈
2025-08-01 20:51:22
睡下属泡学妹,深扒刘强东的五个女人和六个孩子,章泽天地位不稳

睡下属泡学妹,深扒刘强东的五个女人和六个孩子,章泽天地位不稳

科学发掘
2026-01-21 00:12:49
37岁文咏珊机场穿搭:羽绒服+阔腿裤,保暖又时髦,美得像27岁

37岁文咏珊机场穿搭:羽绒服+阔腿裤,保暖又时髦,美得像27岁

小老头奇闻
2026-01-12 19:34:29
我在坐月子,我妈竟打电话叫我老公回去,出3万给未来弟媳买三金

我在坐月子,我妈竟打电话叫我老公回去,出3万给未来弟媳买三金

我是三月鱼H
2026-01-14 17:17:27
葬礼这天,江湖地位、人情冷暖,在聂卫平身上展现的淋漓尽致

葬礼这天,江湖地位、人情冷暖,在聂卫平身上展现的淋漓尽致

郭蛹包工头
2026-01-20 04:05:28
利好!重磅发布会,信息量很大

利好!重磅发布会,信息量很大

中国基金报
2026-01-20 11:42:40
我妈90岁还能生活自理,她的长寿秘诀就一句:“别老想着走动”

我妈90岁还能生活自理,她的长寿秘诀就一句:“别老想着走动”

蝉吟槐蕊
2025-12-28 14:32:30
与澳大利亚、库拉索、喀麦隆同组,国际足联确认国足参加FIFA系列赛

与澳大利亚、库拉索、喀麦隆同组,国际足联确认国足参加FIFA系列赛

北青网-北京青年报
2026-01-19 22:14:03
“流氓作家”贾平凹语出惊人:跟睡过的女人比暧昧的女人更有感觉

“流氓作家”贾平凹语出惊人:跟睡过的女人比暧昧的女人更有感觉

百态人间
2026-01-04 16:18:53
公公把四套房全给小姑子,老公沉默我离婚,三个月后报应来了!

公公把四套房全给小姑子,老公沉默我离婚,三个月后报应来了!

晓艾故事汇
2026-01-14 10:17:21
大寒后,这菜使劲吃!一清热排毒、二助睡眠、三明亮眼睛,别错过

大寒后,这菜使劲吃!一清热排毒、二助睡眠、三明亮眼睛,别错过

Lily美食谈
2026-01-20 22:51:38
巴萨2200万欧报价拉什福德!低于3000万买断条款,曼联拒让步

巴萨2200万欧报价拉什福德!低于3000万买断条款,曼联拒让步

夜白侃球
2026-01-20 16:30:35
特朗普估计气死了!中国炼厂买不到委内瑞拉原油,开始转向加拿大

特朗普估计气死了!中国炼厂买不到委内瑞拉原油,开始转向加拿大

南权先生
2026-01-20 15:50:27
被愤怒的将军罢免,副总理杨胜虎是谁?

被愤怒的将军罢免,副总理杨胜虎是谁?

吃瓜体
2026-01-20 14:27:07
2026-01-21 04:04:49
量子位 incentive-icons
量子位
追踪人工智能动态
12038文章数 176360关注度
往期回顾 全部

科技要闻

收藏|这可能是CES2026最清醒一份复盘

头条要闻

丹麦首相:主权不谈判 准备贸易战

头条要闻

丹麦首相:主权不谈判 准备贸易战

体育要闻

勇士遭暴击!巴特勒重伤赛季报销

娱乐要闻

网红版闫学晶!600万粉博主阿爆翻车

财经要闻

李迅雷:2026买房不如租房

汽车要闻

奇瑞张贵兵:墨甲不做秀技术的企业 只做痛点终结者

态度原创

时尚
房产
手机
教育
军事航空

冬季不臃肿穿搭指南来了,奔五奔六照着穿,拿捏温暖与高级感

房产要闻

中旅・三亚蓝湾发布会揭秘自贸港好房子高阶形态

手机要闻

iQOO 15 Ultra跑分出炉:451万行业最高记录

教育要闻

学习不再靠死磕,是从初二开始的

军事要闻

德军13人前脚刚走 荷兰2名军人也撤离格陵兰岛

无障碍浏览 进入关怀版