网易首页 > 网易号 > 正文 申请入驻

最强数学大模型易主!阿里千问新模型成绩超GPT-4o,网友:这才是真“草莓”

0
分享至


克雷西 发自 凹非寺 转发自量子位公众号

最强数学大模型,现在易主!

阿里千问大模型团队发布的Qwen2-Math,不仅超越了Llama 3.1-405B,也战胜了GPT-4o、Claude 3.5等一系列闭源模型。

而且还会解决竞赛级试题,在GPT-4只能做对一道的AIME 24中,Qwen2-Math答对的题目数量达到了两位数。

Qwen2-Math一共有三个参数量的版本——72B,7B和1.5B。

最强的72B版本,在MATH数据集上比GPT-4o多得了7分,按比例算高出了9.6%。

7B版本也用不到十分之一的参数量,超过了72B的开源数学模型NuminaMath

而且这个NuminaMath来头不小,它的7B版本在全球首届AIMO中获奖,奖项由数学大牛陶哲轩颁发

阿里高级算法专家林俊旸激动地宣布,千问团队把Qwen2模型变成了一个数学高手。

fast.ai创始人Jeremy Howard看了直呼amazing。

网友更是惊叹,原来这才是真正的“草莓”,这是开源的胜利,也是所有人的胜利。

超越GPT4o,会做竞赛级试题

如前文所说,Qwen2-Math共有72B、7B和1.5B三个参数规模,分别由对应规模的Qwen2基础模型改造而成。

在基础模型之上,团队使用精心设计的数学专用语料库进行了预训练,训练数据包含大规模高质量的数学网络文本、书籍、代码、考试题目,以及由Qwen2模型合成的数学预训练数据。

结果,在GSM8K、MATH等经典数学测试集上,Qwen2-Math-72B的数学能力都超过了405B的Llama-3.1

这些数据集,涉及的问题涵盖了代数、几何、计数与概率、数论等多种类型。

除了这些英文的数据集,Qwen2-Math还专门挑战了中文数据集CMATH,还有高考试题。

在中文数据集上,1.5B版本的成绩就超过了70B的Llama 3.1,而且三个版本相当于同规模的Qwen2基础模型,成绩都有明显提升。

在Qwen2-Math的基础之上,千问团队还微调出了Instruct版本。

具体来说,团队基于Qwen2-Math-72B训练一个数学专用的奖励模型,将奖励信号与正误判断信号结合作为学习标签,再通过拒绝采样构建监督微调(SFT)数据,最后在SFT模型基础上使用GRPO方法优化。

在MATH数据集上的零样本测试显示,1.5B的Instruct就能取得70%的准确率,比70B的Llama 3.1还高

此外,研究团队还引入了难度更大的OlympiadBench、CollegeMath和英译版高考试题等更困难的测试集。

作者让Qwen2-Math采用了贪心(greedy)、RM@8和Maj@8三种策略,结果无论是哪一种,Qwen2-Math的成绩全都超过了同规模的Llama 3.1。

中文数据集方面,Qwen2-Math还挑战了今年最新的中高考试题,与Llama 3.1相比优势十分明显。

值得一提的是,为了减少测试成绩当中的“水分”,千问团队专门从训练数据集中去除了所有和测试集重叠的部分

而且除了精确匹配,还运用了更严格的13-gram去重策略,只要最长公共序列的比率应大于0.6就会被去除。

后训练的过程也是如此,涉及的数据集,甚至测试成绩中没展示的Aqua、SAT Math,全都被从数据当中剔除。

另外,Qwen2-Math-Instruct已经具备了解决一些简单的竞赛级试题的能力。

比如在AIME 24的30道题当中,Qwen2-Math-72B-Instruct用rm@256策略能够做对11道

像GPT-4 Turbo、Claude 3 Opus和Gemini 1.5 PRo这些先进模型都只能做对一两道。

而且最小的1.5B版本也能在rm@256的条件下做对五道题,已经超过了这三家模型。

另外,Gemini 1.5 Pro有一个专门针对数学任务的版本,但也只能做对七八道题目,Qwen2-Math-72B-Instruct是第一个做对的题目数量达到两位数的模型

在官方文档中,千问团队也展示了一些示例,比如奥赛级数学测试集Math Odyssey当中有这样一道题目。

这道题目涉及到组合数学和图论,具体又包括了完全图、二部图等概念。

此外还需要理解如何将这些概念应用于特定性质结构的构建,需要较强的抽象思维能力和对图论结构的深刻理解。

Qwen2-Math的解决方案是这样的,从中可以看出确实是运用到了图论方法。

最终,Qwen2-Math正确地回答了这道题目。

中文为机翻,仅供参考

不过,目前发布的Qwen2-Math主要针对英文场景,中英双语版本将会在之后推出。

另外,根据Qwen2-Math的许可协议,该模型对大部分用户来说可以免费商用,但对于72B版本,如果每月活跃用户数超过1亿,就需要向千问团队申请许可了。

项目主页:
https://qwenlm.github.io/zh/blog/qwen2-math/
参考链接:
https://x.com/JustinLin610/status/1821554112192012291

随着科学技术的快速发展,数据统计分析已成为解决复杂问题的重要工具。同时,科技政策对于推动科技创新、优化资源配置、促进社会经济发展具有重要作用。为推广统计分析与数据科学在科技政策研究中的应用,提高公众对数据驱动管理的认识,推动科技政策决策的科学化和精准化。四川省科学学与科技政策研究会、成都航空航天学会共同主办了:2024年全国统计与数据科学应用大赛。

竞赛官网

组织单位

四川省科学学与科技政策研究会

成都航空航天学会

参赛对象

大赛面向所有在校学生(包含研究生、本科、专科生),具体要求如下:

1、参赛队员人数为1-3人,参赛队员必须全部为在校生,允许跨校、跨年级、跨专业组队

2、参赛组别的确定依据是团队成员中最高在读学历

3、每支参赛队伍允许最多有一名指导老师,指导老师须为全职高校老师,队伍也可以没有指导老师。

时间安排

【报名时间】

2024年7月8日00:00至2024年8月23日18:00

【参赛论文提交时间】

2024年8月23日18:00至2024年8月26日18:00

【成绩公布时间】

2024年9月30日

【证书下载时间】

2024年9月30日即证书落款日期

竞赛主题

竞赛将围绕以下几个方面展开(仅供参考,不仅限下列方面):

1. 新质生产力的统计分析与政策优化:探索和分析新质生产力在科技政策中的应用,通过统计模型提供政策建议。

2. AIGC在科技政策中的应用:研究人工智能生成内容(AIGC)的发展趋势及其对科技政策的影响,提出相应的优化策略。

3. 数据驱动的科技政策创新:利用先进的统计分析方法和工具,挖掘数据背后的规律,为科技政策制定提供科学依据。

奖项设置

特等奖(1%)

一等奖(5%)

二等奖(15%)

三等奖(25%)

优秀奖(若干)

特等奖奖金200元+成果转化补贴300元

优秀论文将有机会在相关学术期刊上发表

评阅标准

得分项 分值 选题是否新颖,有一定的前瞻性、有实用价值 15 相关假设是否具有合理性、数据基础是否可靠 15 模型的过程是否完整规范、结果解读是否准确、可靠 40 论文结构安排是否合理、层次逻辑是否清晰、是否进行足够的模型检验 30

联系方式

负责人QQ:442390726(苏老师)

竞赛交流群:557236794

BONUS TIME

数学建模资料、视频讲解、历年赛题

后台回复 【校苑】领取

推荐阅读(点击下方图片即可跳转)

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
终于有人提醒了:手里有定期存款的人,从今年起要格外清醒

终于有人提醒了:手里有定期存款的人,从今年起要格外清醒

爱看剧的阿峰
2026-02-08 10:04:50
乱!乱!西部排名大乱!马刺冲第1,5队哄抢第3,快船翻身难了

乱!乱!西部排名大乱!马刺冲第1,5队哄抢第3,快船翻身难了

兵哥篮球故事
2026-02-07 17:28:31
金价一夜大反转!2月7日最新报价,全国金价差居然离谱到这地步?

金价一夜大反转!2月7日最新报价,全国金价差居然离谱到这地步?

小鬼头体育
2026-02-08 01:35:01
苏醒春节前回老家,父母住的复式豪宅有两层楼,在家请客全是硬菜

苏醒春节前回老家,父母住的复式豪宅有两层楼,在家请客全是硬菜

柒佰娱
2026-02-07 20:38:13
国家账户只剩217美元,从非洲粮仓到穷得吃老鼠,这波操作简直绝了,这事怎么闹的?

国家账户只剩217美元,从非洲粮仓到穷得吃老鼠,这波操作简直绝了,这事怎么闹的?

老杉说历史
2026-02-04 18:58:14
慌了手脚,赖清德抛出所谓“四个不变”,岛内舆论喊话:睁眼看清世界

慌了手脚,赖清德抛出所谓“四个不变”,岛内舆论喊话:睁眼看清世界

环球网资讯
2026-02-07 06:44:11
四野的王牌军长,曾任志愿军副司令员,为何反倒被误认为不擅用兵?

四野的王牌军长,曾任志愿军副司令员,为何反倒被误认为不擅用兵?

文史明鉴
2026-02-06 14:45:12
收手吧,“资本家的丑孩子”!没颜值没演技,央视力推也带不动

收手吧,“资本家的丑孩子”!没颜值没演技,央视力推也带不动

往史过眼云烟
2025-12-15 16:16:48
至今仍健在的开国将帅只剩一位,今年103岁高龄,身体依旧硬朗

至今仍健在的开国将帅只剩一位,今年103岁高龄,身体依旧硬朗

鲸探所长
2026-02-05 16:41:09
下周有可能入春

下周有可能入春

脊梁in上海
2026-02-08 08:08:36
2026除夕,别再说“新年快乐”,精选20句拜年祝福语,高级不俗套

2026除夕,别再说“新年快乐”,精选20句拜年祝福语,高级不俗套

Lily美食谈
2026-02-06 23:29:15
穿始祖鸟的中产快把北京近郊爬成珠穆朗玛峰了,“零下20度趴在人造冰瀑上当壁虎”

穿始祖鸟的中产快把北京近郊爬成珠穆朗玛峰了,“零下20度趴在人造冰瀑上当壁虎”

Vista氢商业
2026-02-04 13:44:56
央视动真格了!2026春晚大换血,赵本山当年的狠话终于应验

央视动真格了!2026春晚大换血,赵本山当年的狠话终于应验

秋姐居
2026-02-08 11:28:53
蔡磊最新病情:用尽全力才能保持眼球转动,起身需4个人帮助;身体疼痛麻木,一晚翻身醒来约十次

蔡磊最新病情:用尽全力才能保持眼球转动,起身需4个人帮助;身体疼痛麻木,一晚翻身醒来约十次

都市快报橙柿互动
2026-02-07 14:12:30
哈佛跟踪32年发现扎心真相:你能活多久,很大程度取决于你老婆!

哈佛跟踪32年发现扎心真相:你能活多久,很大程度取决于你老婆!

徐德文科学频道
2026-02-06 21:31:27
尚可喜家族参与三藩之乱,为何没有遭到康熙清算,反而显赫到清末

尚可喜家族参与三藩之乱,为何没有遭到康熙清算,反而显赫到清末

掠影后有感
2026-01-18 14:14:43
61岁阿姨说:和再婚老伴同居后才明白,男人老了还要找老伴的原因

61岁阿姨说:和再婚老伴同居后才明白,男人老了还要找老伴的原因

拾代谈生活
2026-02-04 11:05:44
曹颖自曝患癌时日无多,含泪坦言最怕看不到儿子长大,心痛万分!

曹颖自曝患癌时日无多,含泪坦言最怕看不到儿子长大,心痛万分!

老特有话说
2025-12-29 22:29:41
老瓦:樊振东不想打了,除非国乒无人可用。王励勤伦敦征召令来了

老瓦:樊振东不想打了,除非国乒无人可用。王励勤伦敦征召令来了

冥王星与一只碗
2026-02-05 09:49:33
郭威全家惨死168口,才懂柴荣死后赵匡胤为何篡位

郭威全家惨死168口,才懂柴荣死后赵匡胤为何篡位

孔孔说体育
2026-02-08 12:21:19
2026-02-08 13:48:49
数学家
数学家
服务于数学建模爱好者的平台
3883文章数 1979关注度
往期回顾 全部

科技要闻

欧盟认定存在"上瘾"设计 TikTok:结论错误

头条要闻

美国拉拢 阿根廷明确表态:不排除来自中国的投资

头条要闻

美国拉拢 阿根廷明确表态:不排除来自中国的投资

体育要闻

铜牌与苏翊鸣的这四年,他说:我对得起自己

娱乐要闻

曝带女星回老家小区,罗云熙紧急回应

财经要闻

金银震荡144小时 大爷大妈排队「抄底」

汽车要闻

VLA司机大模型优化 理想汽车OTA8.3版本更新

态度原创

手机
健康
教育
游戏
时尚

手机要闻

华为双喜临门,鸿蒙OS 6开发者招募,Mate80系列销量强势破280万

转头就晕的耳石症,能开车上班吗?

教育要闻

费马点的应用,初中中考几何压轴题必考题型

《夺宝奇兵》开发商仍然希望回归《德军总部》系列

40+女性冬季这样穿:“长外套+裙子”,保暖与洋气双向在线

无障碍浏览 进入关怀版