网易首页 > 网易号 > 正文 申请入驻

最强数学大模型易主!阿里千问新模型成绩超GPT-4o

0
分享至

克雷西 发自 凹非寺
量子位 | 公众号 QbitAI

最强数学大模型,现在易主!

阿里千问大模型团队发布的Qwen2-Math,不仅超越了Llama 3.1-405B,也战胜了GPT-4o、Claude 3.5等一系列闭源模型。

而且还会解决竞赛级试题,在GPT-4只能做对一道的AIME 24中,Qwen2-Math答对的题目数量达到了两位数。

Qwen2-Math一共有三个参数量的版本——72B,7B和1.5B。

最强的72B版本,在MATH数据集上比GPT-4o多得了7分,按比例算高出了9.6%。

7B版本也用不到十分之一的参数量,超过了72B的开源数学模型NuminaMath

而且这个NuminaMath来头不小,它的7B版本在全球首届AIMO中获奖,奖项由数学大牛陶哲轩颁发

阿里高级算法专家林俊旸激动地宣布,千问团队把Qwen2模型变成了一个数学高手。

fast.ai创始人Jeremy Howard看了直呼amazing。

网友更是惊叹,原来这才是真正的“草莓”,这是开源的胜利,也是所有人的胜利。

超越GPT4o,会做竞赛级试题

如前文所说,Qwen2-Math共有72B、7B和1.5B三个参数规模,分别由对应规模的Qwen2基础模型改造而成。

在基础模型之上,团队使用精心设计的数学专用语料库进行了预训练,训练数据包含大规模高质量的数学网络文本、书籍、代码、考试题目,以及由Qwen2模型合成的数学预训练数据。

结果,在GSM8K、MATH等经典数学测试集上,Qwen2-Math-72B的数学能力都超过了405B的Llama-3.1

这些数据集,涉及到问题涵盖了代数、几何、计数与概率、数论等多种类型。

除了这些英文的数据集,Qwen2-Math还专门挑战了中文数据集CMATH,还有高考试题。

在中文数据集上,1.5B版本的成绩就超过了70B的Llama 3.1,而且三个版本相当于同规模的Qwen2基础模型,成绩都有明显提升。

在Qwen2-Math的基础之上,千问团队还微调出了Instruct版本。

具体来说,团队基于Qwen2-Math-72B训练一个数学专用的奖励模型,将奖励信号与正误判断信号结合作为学习标签,再通过拒绝采样构建监督微调(SFT)数据,最后在SFT模型基础上使用GRPO方法优化。

在MATH数据集上的零样本测试显示,1.5B的Instruct就能取得70%的准确率,比70B的Llama 3.1还高

此外,研究团队还引入了难度更大的OlympiadBench、CollegeMath和英译版高考试题等更困难的测试集。

作者让Qwen2-Math采用了贪心(greedy)、RM@8和Maj@8三种策略,结果无论是哪一种,Qwen2-Math的成绩全都超过了同规模的Llama 3.1。

中文数据集方面,Qwen2-Math还挑战了今年最新的中高考试题,与Llama 3.1相比优势十分明显。

值得一提的是,为了减少测试成绩当中的“水分”,千问团队专门从训练数据集中去除了所有和测试集重叠的部分

而且除了精确匹配,还运用了更严格的13-gram去重策略,只要最长公共序列的比率应大于0.6就会被去除。

后训练的过程也是如此,涉及的数据集,甚至测试成绩中没展示的Aqua、SAT Math,全都被从数据当中剔除。

另外,Qwen2-Math-Instruct已经具备了解决一些简单的竞赛级试题的能力。

比如在AIME 24的30道题当中,Qwen2-Math-72B-Instruct用rm@256策略能够做对11道

像GPT-4 Turbo、Claude 3 Opus和Gemini 1.5 PRo这些先进模型都只能做对一两道。

而且最小的1.5B版本也能在rm@256的条件下做对五道题,已经超过了这三家模型。

另外,Gemini 1.5 Pro有一个专门针对数学任务的版本,但也只能做对七八道题目,Qwen2-Math-72B-Instruct是第一个做对的题目数量达到两位数的模型

在官方文档中,千问团队也展示了一些示例,比如奥赛级数学测试集Math Odyssey当中有这样一道题目。

这道题目涉及到组合数学和图论,具体又包括了完全图、二部图等概念。

此外还需要理解如何将这些概念应用于特定性质结构的构建,需要较强的抽象思维能力和对图论结构的深刻理解。

Qwen2-Math的解决方案是这样的,从中可以看出确实是运用到了图论方法。

最终,Qwen2-Math正确地回答了这道题目。

△中文为机翻,仅供参考

不过,目前发布的Qwen2-Math主要针对英文场景,中英双语版本将会在之后推出。

另外,根据Qwen2-Math的许可协议,该模型对大部分用户来说可以免费商用,但对于72B版本,如果每月活跃用户数超过1亿,就需要向千问团队申请许可了。

项目主页:
https://qwenlm.github.io/zh/blog/qwen2-math/
参考链接:
https://x.com/JustinLin610/status/1821554112192012291

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
古籍记载龙长虎短手相 无名指更长之人晚年多有四种人生结局

古籍记载龙长虎短手相 无名指更长之人晚年多有四种人生结局

唠叨说历史
2026-03-31 14:25:43
黄衣美女,身材真好

黄衣美女,身材真好

蓝色海洋009
2026-05-08 20:09:07
姆巴佩抨击法国右翼政党国民联盟,党主席回击:你离开巴黎后,巴黎可又要拿欧冠了

姆巴佩抨击法国右翼政党国民联盟,党主席回击:你离开巴黎后,巴黎可又要拿欧冠了

懂球帝
2026-05-13 10:23:07
可惜了,不会演硬演,《主角》唯一败笔,换掉她这部剧近乎完美

可惜了,不会演硬演,《主角》唯一败笔,换掉她这部剧近乎完美

芬霏剧时光
2026-05-12 11:13:09
国家一级“杀人王”误闯小区,当地部门倒吸一口气:山里都少见

国家一级“杀人王”误闯小区,当地部门倒吸一口气:山里都少见

夏末moent
2026-05-13 04:57:03
苏-57发射超远程导弹,绝杀乌克兰预警机!给印度空军上了一堂课

苏-57发射超远程导弹,绝杀乌克兰预警机!给印度空军上了一堂课

闻识
2026-05-13 04:47:05
农村光棍没减少,又冒4个扎心怪象,热闹背后全是难念的经

农村光棍没减少,又冒4个扎心怪象,热闹背后全是难念的经

老特有话说
2026-05-12 15:30:33
知名歌唱家贪财好色嫁大30岁二婚男,如今活成这样

知名歌唱家贪财好色嫁大30岁二婚男,如今活成这样

风月得自难寻
2026-05-12 06:25:42
江苏事业单位副高七级养老金从8280元到11434元的核定逻辑解析

江苏事业单位副高七级养老金从8280元到11434元的核定逻辑解析

坠入二次元的海洋
2026-05-13 11:57:56
“妈祖代言人”刘涛:认识20天就闪婚,婚后为丈夫还数亿债务

“妈祖代言人”刘涛:认识20天就闪婚,婚后为丈夫还数亿债务

奇怪的鲨鱼们
2026-05-13 10:06:09
礼宾司看了大会堂的宴会大厅后,觉得太寒酸,就像公社大食堂

礼宾司看了大会堂的宴会大厅后,觉得太寒酸,就像公社大食堂

雍亲王府
2026-05-11 18:40:04
中日斗法:遍布我国的日本学校,被组成困龙局,749局高人一招化解

中日斗法:遍布我国的日本学校,被组成困龙局,749局高人一招化解

天字号野史
2024-11-29 11:55:59
全球最大的公司诞生!市值35万亿,相当于15个阿里,利润超8000亿

全球最大的公司诞生!市值35万亿,相当于15个阿里,利润超8000亿

混沌录
2026-05-11 22:34:09
黄仁勋的中国"归零"桌——从"很高兴"到"绝不卖给你",一个人怎么把全球最大AI芯片市场让给华为丨【商业人物档案】

黄仁勋的中国"归零"桌——从"很高兴"到"绝不卖给你",一个人怎么把全球最大AI芯片市场让给华为丨【商业人物档案】

投资者网
2026-05-12 20:14:20
长得太美被导演占为己有,25岁生下3个孩子,如今个个都给她争光

长得太美被导演占为己有,25岁生下3个孩子,如今个个都给她争光

揽星河的笔记
2026-05-13 13:26:24
印度和印尼都在马六甲“搞事”?中方突然宣布,先进潜艇交付巴铁

印度和印尼都在马六甲“搞事”?中方突然宣布,先进潜艇交付巴铁

云舟史策
2026-05-13 07:15:06
这支部队不属于任何野战军,50年还有人穿红军军装,地位无可替代

这支部队不属于任何野战军,50年还有人穿红军军装,地位无可替代

大运河时空
2026-05-12 14:25:03
特朗普等不了了!启程前对华交底:共同敌人浮现,中方稳坐钓鱼台

特朗普等不了了!启程前对华交底:共同敌人浮现,中方稳坐钓鱼台

领略快乐真谛
2026-05-13 12:29:20
楚嘉禾争了一辈子《主角》,满盘皆输,她给所有的聪明人上了一课

楚嘉禾争了一辈子《主角》,满盘皆输,她给所有的聪明人上了一课

白羽居士
2026-05-12 20:42:06
CBA半决赛赛程出炉!北京北汽能赢上海男篮吗?京媒和沪媒看法罕见一致

CBA半决赛赛程出炉!北京北汽能赢上海男篮吗?京媒和沪媒看法罕见一致

兰亭墨未干
2026-05-13 10:34:51
2026-05-13 14:39:00
量子位 incentive-icons
量子位
追踪人工智能动态
12617文章数 176461关注度
往期回顾 全部

科技要闻

谷歌剧透安卓重大升级 Gemini深度集成底层

头条要闻

特朗普空中发文:很荣幸与杰出人士同去伟大的中国

头条要闻

特朗普空中发文:很荣幸与杰出人士同去伟大的中国

体育要闻

14年半,74万,何冰娇没选那条更安稳的路

娱乐要闻

白鹿掉20万粉,网友为李晨鸣不平

财经要闻

深圳夫妻囤芯片,身家飙涨320亿

汽车要闻

吉利银河“TT”申报图曝光 电动尾翼+激光雷达

态度原创

数码
亲子
家居
艺术
房产

数码要闻

三星Exynos 2700或弃用WLP封装 成本压力成主因

亲子要闻

高龄备孕成功经验:43岁高龄备孕如何调理身体?

家居要闻

内在自叙,无域有方

艺术要闻

果然是经济强省!浙江县域第一高楼,高约300米!

房产要闻

海口禁摩,3.3万名车主要慌了!

无障碍浏览 进入关怀版