微软亚洲研究院的数学和人工智能研究团队于1月10日发布了一项新技术——rStar-Math,专门用于提升小语言模型解决数学问题的能力。与之前的 Phi-4 模型不同,rStar-Math 采用蒙特卡洛树搜索(Monte Carlo Tree Search)进行推理,模拟人类逐步解决问题的思维方式,将复杂问题分解成更小的部分逐步求解。
研究人员要求模型输出自然语言描述和 Python 代码形式的“思维链”步骤,并将自然语言作为 Python 代码注释,仅使用 Python 代码输出训练模型。通过训练一个“策略模型”生成数学推理步骤,并使用“过程偏好模型”(PPM)选择最有希望的解题步骤,这两个模型经过四轮“自我进化”互相改进,不断提升性能。
初始数据包括74万道公开的数学应用题及其解答,利用上述两个模型生成新的解题步骤。测试结果显示,应用 rStar-Math 技术后,Qwen2.5-Math-7B 模型的准确率从58.8%跃升至90.0%,Phi3-mini-3.8B 模型从41.4%提升到86.4%,分别比 OpenAI 的 o1-preview 模型高4.5%和0.9%。
研究团队计划在 GitHub 上公开 rStar-Math 的代码和数据,方便其他研究者使用和改进。
风险警告:本文根据网络内容由AI生成,内容仅供参考,不应作为专业建议或决策依据。用户应自行判断和验证信息的准确性和可靠性,本站不承担可能产生的任何风险和责任。内容如有问题,可联系本站删除。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.