网易首页 > 网易号 > 正文 申请入驻

复旦大学突破性研究:让AI像人类一样持续学习推理的"魔法环境"

0
分享至


这项由复旦大学与上海创新研究院、新加坡管理大学联合完成的突破性研究发表于2026年1月,论文编号为arXiv:2601.04809v2。有兴趣深入了解的读者可以通过该编号查询完整论文。

当我们教孩子学数学时,会从简单的加减法开始,随着孩子能力提升,逐渐增加题目难度。同时,我们不会让孩子一直做同一类型的题目,而是会引入不同的数学概念和应用场景。这种"因材施教、循序渐进"的教学智慧,正是当前人工智能训练中缺失的关键要素。

现有的AI训练就像让学生面对一堆固定的练习题反复刷题。刚开始时,这些题目可能很有挑战性,但随着AI能力提升,这些固定题目变得过于简单,无法继续促进学习进步。相反,如果题目过于困难,AI又会像面对天书一样完全无法理解,学习效果同样不佳。更糟糕的是,即使难度合适,如果题目类型过于单一,AI就会变成"刷题机器",只会解决特定类型的问题,缺乏举一反三的能力。

复旦大学的研究团队意识到这个根本性问题,提出了一个名为SCALER的创新解决方案。SCALER是"合成可扩展自适应学习推理环境"的英文缩写,本质上就是为AI打造了一个能够自动调节难度、不断变化题型的"智能教练"。

这个智能教练的工作原理就像一位经验丰富的家教老师。当它发现AI答对了大部分题目时,会自动增加难度;当发现AI屡屡失败时,会适当降低难度,始终保持在AI能力边界附近提供恰到好处的挑战。同时,当AI在某个类型的题目上已经完全掌握时,智能教练会引入全新的题目类型,确保学习过程始终保持新鲜感和挑战性。

研究团队的核心洞察是,有效的AI训练信号必须满足两个关键条件。第一个条件是难度匹配:问题既不能太简单让AI觉得无聊,也不能太难让AI完全摸不着头脑。第二个条件是保持多样性:即使难度合适,如果总是面对相同类型的问题,AI也会陷入思维定式,无法培养真正的推理能力。

传统方法就像给学生准备了一个固定的题库,无论学生水平如何变化,题库内容始终保持不变。这种方式在训练初期可能有效,但随着AI能力提升,固定题库很快就变得不再适用。有些研究尝试通过让AI自己生成新题目来解决这个问题,但这种方法容易陷入"自说自话"的困境,AI生成的题目往往要么过于简单,要么完全脱离实际应用场景。

SCALER的突破在于创建了一个完全自动化的环境生成系统。这个系统能够将现实世界中的编程问题转化为可验证的推理环境。就像把复杂的工程问题转化为循序渐进的教学案例一样,这个转化过程确保了每个环境都有明确的评判标准,能够自动验证AI的答案是否正确。

更令人印象深刻的是,每个环境都支持无限制的实例生成。这就好比有了一个数学题目生成器,能够基于同一个核心概念创造出无数个不同的具体题目。比如,基于"计算数组元素和"这个概念,可以生成包含不同数量元素、不同数值范围的无数个具体题目。这种设计确保了AI永远不会因为"刷完了所有题目"而停止学习。

在多环境训练框架方面,SCALER设计了两个核心机制来实现智能化的学习管理。第一个机制是难度控制器,它像一个敏锐的观察者,时刻监控AI在每个环境中的表现。当AI的正确率过高时,控制器会自动增加题目的复杂度;当正确率过低时,则会适当降低难度。这种动态调节确保AI始终在最适合的难度水平上进行学习。

第二个机制是环境策展机制,它的作用类似于一位经验丰富的课程规划师。当检测到AI在某个环境中的学习已经饱和,也就是难度无法继续提升或者AI已经完全掌握了该环境的所有挑战时,这个机制会自动将该环境"退休",并从环境池中选择一个新的环境来替代。这种动态更换确保AI始终面对新鲜的挑战,避免陷入重复性训练的陷阱。

难度控制器的工作原理相当精巧。它设定了一个目标正确率,比如50%,意味着AI应该能够正确解决一半的题目。当AI的实际表现超过这个目标时,系统会认为当前题目过于简单,需要增加难度;当表现低于目标时,则会降低难度。这种设计确保AI始终在"跳一跳够得着"的最佳学习区域内训练。

更巧妙的是,由于每个环境都有离散的难度等级,系统使用了一种混合采样策略来逼近连续的目标难度。比如,如果目标难度是2.3级,系统会生成30%的3级题目和70%的2级题目,使得整体平均难度恰好为2.3。这种设计既保持了难度控制的精确性,又兼容了离散化的实现方式。

环境策展机制的判断依据也很有意思。它通过观察最近一段时间内难度变化的趋势来判断学习是否已经停滞。如果一个环境的难度在最近10个训练步骤中没有继续上升,甚至出现下降趋势,系统就会判定该环境的学习价值已经耗尽。此外,如果AI在某个环境中连续表现完美或者连续失败,也会触发环境更换,避免训练陷入极端情况。

研究团队为了创建这个智能训练系统,还开发了一套完整的环境合成管道。这个管道的工作流程就像一个自动化的教材编写系统。首先,它会分析现实世界的编程问题,提取出关键的规模参数,比如数组长度、图中的边数等。这些参数决定了问题的基本复杂度。

接下来,系统会自动生成测试用例,就像为每道题目准备标准答案一样。为了确保生成的题目质量,系统采用了双重验证机制。广度检查确保不同难度级别的题目都能生成正确的答案,深度检查则确保相同难度级别的不同题目具有足够的多样性,避免AI通过记忆固定模式来"作弊"。

最后,系统会进行启发式难度校准,确定每个环境在实际应用中的可行难度范围。这个过程考虑了两个实际约束:模型能够处理的最大输入长度,以及计算时间的限制。通过二分搜索等技术,系统能够找到既有挑战性又在可行范围内的最大难度级别。

在实验验证方面,研究团队进行了全面而严格的测试。他们使用了两个不同规模的基础模型:Qwen3-1.7B和Qwen3-4B,在五个不同的推理基准测试上评估SCALER的效果。这些测试涵盖了数学竞赛题目、高考数学、研究生入学考试等各种难度层次的推理任务。

实验结果令人印象深刻。以Qwen3-4B模型为例,传统的数据集训练方法在五个基准测试上的平均表现为52.04分,而SCALER达到了54.25分,实现了显著的性能提升。更重要的是,SCALER在训练动态方面表现出了明显的优势,能够维持长期的性能改进趋势,而传统方法往往在训练后期陷入停滞。

研究团队还发现,环境数量的增加能够带来持续的性能提升。当环境数量从8个增加到2739个时,模型性能呈现出稳定的上升趋势。这个发现证实了多样性对AI学习的重要性,就像学生接触的题型越丰富,解题能力就越全面一样。

特别值得注意的是,即使在相对较少的环境数量下,SCALER仍然能够维持持续的学习进步。这是因为每个环境内部的难度控制机制确保了学习信号的持续有效性。换句话说,即使题目类型有限,通过动态调节难度,AI仍然能够获得持续的学习收益。

通过详细的消融研究,团队证明了SCALER的两个核心组件都是必不可少的。当移除难度控制器时,AI可能会陷入过于简单或过于困难的训练状态,学习效果大打折扣。当移除环境策展机制时,AI容易在某些环境中过度拟合,无法培养泛化能力。只有两个机制协同工作,才能实现最佳的训练效果。

从技术实现的角度来看,SCALER展现了工程上的优雅性。整个系统基于强化学习框架GRPO进行优化,每个训练步骤会从64个不同的环境中各采样一个问题,形成多样化的训练批次。这种设计既保证了训练的效率,又维持了必要的多样性。

更重要的是,SCALER的设计理念具有很强的通用性。虽然当前的实现主要针对编程和数学推理任务,但其核心原理可以扩展到其他需要持续学习的AI应用场景。比如,在自然语言理解、图像识别、甚至机器人控制等领域,都可以借鉴SCALER的自适应环境设计思想。

当然,这项研究也存在一些局限性。目前的环境合成主要基于编程竞赛题目,虽然数量达到了2739个,但相比于人类学习面临的无限多样的现实问题,仍然有所局限。此外,环境内部属性如上下文丰富度、内在难度等因素的影响还需要进一步深入研究。

研究团队也坦诚地指出了未来的改进方向。他们认为需要进一步探索环境规模、模型规模和计算资源之间的扩展规律,以便在更大规模的应用中优化资源配置。同时,如何更好地理解和控制环境的内在特性,也是提升训练效果的重要研究方向。

从更广阔的视角来看,SCALER代表了AI训练领域的一个重要范式转变。它从静态的数据集训练转向了动态的环境交互训练,从固定的难度设置转向了自适应的难度调节,从单一环境的深度训练转向了多环境的广度学习。这种转变不仅提升了训练效果,更重要的是为AI系统的持续学习和不断进化提供了可行的技术路径。

说到底,SCALER就像给AI配备了一位永不疲倦的私人教练,这位教练不仅能够根据学生的水平调整训练难度,还能够不断引入新的训练项目,确保学习过程始终充满挑战和新鲜感。这种训练方式更贴近人类的学习过程,也更有可能培养出具有真正推理能力的AI系统。

随着AI技术的快速发展,如何让AI系统具备持续学习和自我提升的能力变得越来越重要。SCALER为这个挑战提供了一个富有前景的解决方案,它不仅在技术上实现了突破,更在理念上为AI训练领域指明了新的发展方向。对于普通用户而言,这意味着未来的AI助手将更加智能、更加适应性强,能够在使用过程中不断学习和改进,为我们提供更好的服务体验。

Q&A

Q1:SCALER是什么?

A:SCALER是复旦大学开发的一个AI训练系统,全称是"合成可扩展自适应学习推理环境"。它就像一位智能教练,能够根据AI的学习进度自动调节题目难度,并不断引入新的题目类型,确保AI始终在最适合的挑战水平上进行学习。

Q2:SCALER比传统AI训练方法好在哪里?

A:传统方法就像让学生反复做固定题库的题目,容易出现题目过简单或过难的问题。SCALER则像一个会观察学生水平的老师,当AI表现好时自动增加难度,表现差时适当降低难度,同时还会引入新题型避免AI只会做特定类型的题目。

Q3:普通人能用到SCALER技术吗?

A:目前SCALER主要用于训练AI模型,普通人不会直接使用。但这项技术会让未来的AI助手变得更聪明,能够在使用过程中不断学习和改进,为我们提供更个性化、更智能的服务体验。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
吴树国不幸去世,年仅55岁,学校官网已变黑白

吴树国不幸去世,年仅55岁,学校官网已变黑白

黄河新闻网吕梁频道
2026-02-01 09:32:36
唐嫣彭冠英官宣后,恶心的一幕出现了,婚变传闻终于真相大白

唐嫣彭冠英官宣后,恶心的一幕出现了,婚变传闻终于真相大白

艳姐的搞笑视频
2026-01-16 13:24:42
SpaceX申请100万颗太空算力卫星;星舰V3首飞、升级解析……眼花缭乱的消息更新

SpaceX申请100万颗太空算力卫星;星舰V3首飞、升级解析……眼花缭乱的消息更新

问问马斯克AskMusk
2026-01-31 20:50:22
这种保温杯早被国家禁了,可能引发慢性中毒,很多人却成天不离手

这种保温杯早被国家禁了,可能引发慢性中毒,很多人却成天不离手

DrX说
2025-12-16 14:36:14
儿子丢了、父亲走了、妻子跑了,央视主持张泽群如今落到这般田地

儿子丢了、父亲走了、妻子跑了,央视主持张泽群如今落到这般田地

蜉蝣说
2026-01-31 15:10:43
欧冠淘汰赛资格入账4200万欧元!穆帅一场胜仗刷出14倍年薪回报

欧冠淘汰赛资格入账4200万欧元!穆帅一场胜仗刷出14倍年薪回报

叶赫那拉菲菲
2026-02-01 07:11:40
只有看过竖版世界地图,才能明白格陵兰岛的重要性

只有看过竖版世界地图,才能明白格陵兰岛的重要性

孤云朗境
2026-01-31 23:59:33
大局已定,今年的返乡潮可能彻底消失了!

大局已定,今年的返乡潮可能彻底消失了!

达文西看世界
2026-01-29 19:30:48
保姆想让雇主嫁给儿子这是啥心理?网友:这算盘打得好 想身份互换

保姆想让雇主嫁给儿子这是啥心理?网友:这算盘打得好 想身份互换

另子维爱读史
2026-01-30 18:18:16
人民币现金收付新规,今起施行

人民币现金收付新规,今起施行

澎湃新闻
2026-02-01 11:55:04
印度黄金ETF跌幅收窄,HDFC Gold ETF现跌7%

印度黄金ETF跌幅收窄,HDFC Gold ETF现跌7%

每日经济新闻
2026-02-01 13:29:06
全球只有5位领导人被永久保留遗体,他们都是谁

全球只有5位领导人被永久保留遗体,他们都是谁

扶苏聊历史
2026-01-29 16:13:42
特朗普威胁对加采取“重磅措施”

特朗普威胁对加采取“重磅措施”

财联社
2026-02-01 20:27:32
朝鲜1月几乎没再给俄罗斯送武器了

朝鲜1月几乎没再给俄罗斯送武器了

桂系007
2026-02-01 05:23:02
突发!银行利率降至0%?

突发!银行利率降至0%?

新浪财经
2026-02-01 19:48:39
京东七鲜新店开业:价格全面对标山姆,茅台直降近百元

京东七鲜新店开业:价格全面对标山姆,茅台直降近百元

新浪财经
2026-02-01 10:29:22
伊朗、中国和俄罗斯将举行联合海上演习

伊朗、中国和俄罗斯将举行联合海上演习

桂系007
2026-01-30 03:56:40
今年腊月二十九除夕,四类人要穿红,3种人不要去拜年,有你吗?

今年腊月二十九除夕,四类人要穿红,3种人不要去拜年,有你吗?

阿龙美食记
2026-01-29 11:03:56
大量吸入房子里霉变的粉尘,6岁女孩感染烟曲霉脑子被啃了20多个洞,医生提醒:最好别让孩子参与大扫除

大量吸入房子里霉变的粉尘,6岁女孩感染烟曲霉脑子被啃了20多个洞,医生提醒:最好别让孩子参与大扫除

观威海
2026-01-31 23:14:10
敢不敢打?我军重大人事变故后菲律宾南海演习,更像是一种试探

敢不敢打?我军重大人事变故后菲律宾南海演习,更像是一种试探

悦心知足
2026-02-01 00:50:48
2026-02-02 02:28:49
至顶AI实验室 incentive-icons
至顶AI实验室
一个专注于探索生成式AI前沿技术及其应用的实验室。
1542文章数 158关注度
往期回顾 全部

教育要闻

这么个排行榜,无厘头的很!

头条要闻

爱泼斯坦追逐女孩、安德鲁跪爬女子身上画面全公布

头条要闻

爱泼斯坦追逐女孩、安德鲁跪爬女子身上画面全公布

体育要闻

德约大度祝贺阿卡 幽默互动逗笑纳达尔

娱乐要闻

春晚第三次联排阵容曝光:全是实力派

财经要闻

黄仁勋台北"夜宴":汇聚近40位台企高管

科技要闻

10亿元宝红包突袭 复刻微信支付还是微视?

汽车要闻

岚图汽车1月交付10515辆 同比增长31%

态度原创

本地
时尚
健康
游戏
家居

本地新闻

云游中国|拨开云雾,巫山每帧都是航拍大片

“多巴胺风”又又又火了!这样穿时髦又减龄

耳石症分类型,症状大不同

末期癌症玩家圆梦《毁灭战士》!id公开致敬

家居要闻

蓝调空舍 自由与个性

无障碍浏览 进入关怀版