网易首页 > 网易号 > 正文 申请入驻

8B模型奥数成绩比肩GPT-4!上海AI Lab出品

0
分享至

  • 克雷西 发自 凹非寺
    量子位 | 公众号 QbitAI

只要1/200的参数,就能让大模型拥有和GPT-4一样的数学能力?

来自复旦和上海AI实验室的研究团队,刚刚研发出了具有超强数学能力的模型。

它以Llama 3为基础,参数量只有8B,却在奥赛级别的题目上取得了比肩GPT-4的准确率。

这款模型名为MCTSr,是将AlphaGo中用到的蒙特卡洛算法与Llama3结合而成。

它能用少量的数据实现和GPT-4等的相同效果,让网友感叹Q*成真了,小模型在数学上也能做的和GPT-4等著名模型一样好。

就此又有网友表示,MCTSr能用极少的参数实现相同的效果,加上有时候训练收益随规模递减,表明架构才是当前AI的瓶颈,而不是运算。

这样的趋势也让人想起了AI算力霸主英伟达,开始思考规模化是不是不那么重要了,会不会利空老黄呢?

所以,MCTSr具体运用了什么样的方法呢?

将蒙特卡洛引入大模型

MCTSr名字里是MCT,指的就是蒙特卡洛树(Monte Carlo Tree),而Sr则指的是自我完善(Self-Refine)。

蒙特卡洛树又称随机抽样或统计试验方法,是指一种使用重复随机采样生成合成模拟数据的近似方法,谷歌的围棋机器人AlphaGo当中也用到了这种方法。

名字中没有体现的,是蒙特卡洛与大模型的结合,本项目当中使用的是Llama 3-8B,同时MCTSr还引入了自我修正和自我评估的迭代过程。

在解答数学问题时,MCTSr中的大模型首先会像正常流程一样生成初步答案(甚至可以是“我不知道”),但并不会直接作为输出。

为了改进这个初始答案,MCTSr算法会对其进行评估和反馈,语言模型会被要求对答案进行评价和批评,分析其中可能存在的问题。

然后大模型基于反馈进行自我修正,产生一个新的答案,这个新版本会纳入搜索树中,成为一个新的子节点。

针对多个子节点,系统会进行评分和奖励采样,计算出该节点的“Q值”(a表示答案节点,Ra表示a的奖励样本集合,|Ra|表示样本数量),可以看出Q值的计算综合考虑了节点在最坏情况和平均情况下的表现。

为了提高评估的可靠性,系统采用了严格的打分标准,并会进行重复采样,同时还采取了禁止模型给出满分等策略。

然后基于Q值,MCTSr会使用改进的UCB公式计算每个叶子节点的UCT值,选择UCT值最高的节点进行扩展。

(UCB是一种实现总奖励最大化的方式,UCT是将UCB策略应用于树形搜索问题的一种算法。)

计算UCT值的目的,是为了平衡了节点的平均奖励和访问频率,避免单纯追求高Q值导致的效率下降。

此外,作者修正的UCT计算公式中还引入了动态调整探索系数c,以便在搜索过程中适应不同的问题复杂度,并在探索广度和深度之间做出平衡。

被选中的节点,会通过大模型再次进行自我修正,生成新的答案节点,然后再次进行自我评估并计算Q值。

新的Q值会被并反向传播到其父节点和祖先节点,确保了搜索树中节点的质量评估随着搜索的进行而不断改进。

根据新的Q值和访问次数,各个节点的UCT值也会被重新计算。

接着,上述步骤会被不断重复,直到满足预设的终止条件,此时具有最高Q值的答案节点被视为问题的最优解。

总的来说,通过蒙特卡洛搜索、自我完善与大模型的集合,MCTSr实现了数学问题最优解的生成。

那么,这种方法的实际效果究竟如何呢?

成绩不输GPT-4和Claude-3

在测试当中,作者一共使用了四种模型配置——零样本思维链(CoT),以及1/4/8轮自我优化的MCTSr,其中零样本为对照组。

测试数据集包括MATH的5个level,GSM-8K和GSM-Hard,以及一系列奥赛级别的数据集——AIME、Math Odyssey 和OlympiadBench。

先看简单一些的GSM和MATH。

从下表中可以看出,随着自我优化轮数增多,模型取得的准确率也在增加,经过8轮之后,在GSM-8K上已经达到了96.66%。

而Gemini(1.5Pro,下同)、Claude-3(Opus,下同)、GPT-4(Turbo,下同)的成绩则分别是94.4、95和97.1,可以看出参数只有8B的MCTSr和这些先进模型不相上下。

同样在MATH上,无论是整体还是细分的五个难度等级,成绩随优化轮数的变化都呈现出了相同趋势。

特别是在最困难的Level-5上,8轮后的成绩已经接近了对照组的5倍。

在MATH上,Gemini、Claude-3和GPT-4的成绩分别为67.7、60.1和73.4,相比之下MCTSr略逊一筹,但也和Claude比较接近。

在更加困难的奥赛级别题目上,自我优化给MCTSr带来的能力增强也十分显著。

在Math Odyssey上,MCTSr甚至超过了Gemini、Claude-3和GPT-4,三者的成绩分别是45、40和49.1。

同时,在OlympiadBench上,经过8轮优化后,MCTSr的成绩是零样本时的6.2倍。

值得一提的是,Math Odyssey数据集在2024年4月才发布,其内容与Llama 3的预训练语料重叠度很低。

而在这个数据集上,MCTSr模型的性能从Zero-Shot CoT的17.22%提升到了8-rollouts MCTSr的49.36%。

这一结果表明,MCTSr在面对全新的问题时,已经显现出了一定的泛化能力

目前,MCTSr的代码已经开源,感兴趣的读者可以到GitHub当中了解。

论文地址:
https://arxiv.org/abs/2406.07394
GitHub:
https://github.com/trotsky1997/MathBlackBox

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“崩老头”全链调查:1500元可购全套工具,视频、语音均能伪造身份

“崩老头”全链调查:1500元可购全套工具,视频、语音均能伪造身份

大象新闻
2026-06-01 16:54:53
汪峰带五娃过六一!森林北女儿紧挨妈妈,小女儿醒醒乖巧又大方

汪峰带五娃过六一!森林北女儿紧挨妈妈,小女儿醒醒乖巧又大方

笑谈历史阿晡
2026-06-03 04:37:11
油价要跌破天了!6月2日,油价迎来大幅暴跌,调价后全国油价价格

油价要跌破天了!6月2日,油价迎来大幅暴跌,调价后全国油价价格

小怪吃美食
2026-06-02 19:07:45
中国男篮热身赛前瞻5大看点:杨瀚森不打 仅两内线崔永熙回归首秀

中国男篮热身赛前瞻5大看点:杨瀚森不打 仅两内线崔永熙回归首秀

醉卧浮生
2026-06-03 07:00:16
黄宗泽首谈不婚真相:一出生就是单亲,没见过家庭画面,母亲赶走了所有女友

黄宗泽首谈不婚真相:一出生就是单亲,没见过家庭画面,母亲赶走了所有女友

草莓解说体育
2026-06-03 00:05:34
曝Lisa分手!LV大哥已取关,看了奚梦瑶就知道她嫁不进豪门

曝Lisa分手!LV大哥已取关,看了奚梦瑶就知道她嫁不进豪门

萌神木木
2026-06-02 14:35:14
达维德·安切洛蒂出任里尔主帅

达维德·安切洛蒂出任里尔主帅

快乐加载中21
2026-06-02 00:37:40
15岁印度少女爆冷夺冠,创历史双金

15岁印度少女爆冷夺冠,创历史双金

热血体育社
2026-06-02 01:08:04
特步公主丁佳敏和老公出席何猷君婚礼,晒和谷爱凌,王嘉尔合影

特步公主丁佳敏和老公出席何猷君婚礼,晒和谷爱凌,王嘉尔合影

童叔不飙车
2026-06-02 22:45:26
国家防减救灾委办公室派出工作组赴黑龙江指导做好救灾工作

国家防减救灾委办公室派出工作组赴黑龙江指导做好救灾工作

界面新闻
2026-06-02 19:58:15
禁止所有中国外交官入境,不准两岸统一,这个国家比美国还嚣张?

禁止所有中国外交官入境,不准两岸统一,这个国家比美国还嚣张?

傲傲讲历史
2026-06-02 13:53:16
132亿砸出深圳最大高铁站!4年后竣工,北站“老大”地位不保?

132亿砸出深圳最大高铁站!4年后竣工,北站“老大”地位不保?

科学发掘
2026-06-02 16:28:25
探店还是白嫖的风吹进潮汕地区?一顿卤水火锅,游客放狠话:五千字差评我们已经写好了,潮汕三市彻底炸锅

探店还是白嫖的风吹进潮汕地区?一顿卤水火锅,游客放狠话:五千字差评我们已经写好了,潮汕三市彻底炸锅

潮州玩家
2026-06-01 23:58:42
53岁任泉近况曝光!被曝与黄绮雯隐婚17年,身价几十亿成人生赢家

53岁任泉近况曝光!被曝与黄绮雯隐婚17年,身价几十亿成人生赢家

观史搜寻着
2026-06-01 10:57:12
痛惜!39岁副教授,突发心梗离世

痛惜!39岁副教授,突发心梗离世

双一流高校
2026-06-03 00:08:06
“感觉妈妈彻底走了!”女子称20年老宅被亲戚擅自装光伏板,母亲种的树也被砍,叔叔:我好心没好报

“感觉妈妈彻底走了!”女子称20年老宅被亲戚擅自装光伏板,母亲种的树也被砍,叔叔:我好心没好报

大风新闻
2026-06-02 13:38:29
以色列占领900年古堡黎巴嫩战局基本已定

以色列占领900年古堡黎巴嫩战局基本已定

海子侃生活
2026-06-01 10:10:18
结婚十年丈夫八次出轨蒋勤勤,43岁抑郁烧炭自尽

结婚十年丈夫八次出轨蒋勤勤,43岁抑郁烧炭自尽

萧狡科普解说
2026-05-31 15:45:53
老人精通一绝技,四年拿下二十六女,背后真相令人震惊

老人精通一绝技,四年拿下二十六女,背后真相令人震惊

雾岛夜话
2025-06-02 17:30:56
NBA巨星又要当爹!妻子第四次怀孕,前三胎全是男孩,期待小公主

NBA巨星又要当爹!妻子第四次怀孕,前三胎全是男孩,期待小公主

科学发掘
2026-06-02 19:00:30
2026-06-03 07:32:49
量子位 incentive-icons
量子位
追踪人工智能动态
12731文章数 176476关注度
往期回顾 全部

科技要闻

烧掉千亿后,美团、阿里、京东谁先止血?

头条要闻

演员魏宗万去世 曾在94版《三国演义》中饰演"司马懿"

头条要闻

演员魏宗万去世 曾在94版《三国演义》中饰演"司马懿"

体育要闻

1米74的业余联赛替补,在英超踢中卫

娱乐要闻

奚梦瑶何猷君补办婚礼超幸福

财经要闻

智元和宇树的“暗战”愈演愈烈

汽车要闻

星途神秘新车轮廓曝光 又一款性能SUV要来了?

态度原创

艺术
健康
手机
教育
数码

艺术要闻

二十年前割麦的场景

违规干细胞应用,暗藏致命隐患!

手机要闻

华为凌霄子母路由Q7电线版星闪电竞专链功能首批支持机型公布

教育要闻

进位制之谜,一个视频学明白!

数码要闻

HPB散热加持!三星HBM5预计2028年实现量产

无障碍浏览 进入关怀版