网易首页 > 网易号 > 正文 申请入驻

复旦大学、上海人工智能教育研究所首次让AI学会边生成边反思

0
分享至


这项由复旦大学、上海人工智能教育研究所联合蚂蚁集团的研究团队完成的突破性研究发表于2025年8月,论文题为《A Stitch in Time Saves Nine: Proactive Self-Refinement for Language Models》。感兴趣的读者可以通过arXiv:2508.12903访问完整论文,研究代码也已在GitHub开源。

当我们写作时,很少会一气呵成写出完美文章。更常见的情况是边写边想,发现问题立刻修改,这样才能写出高质量的内容。然而,目前的AI大模型却不是这样工作的,它们就像是那种固执的作家,必须把整篇文章写完才肯回头修改,结果往往需要多轮反复才能达到理想效果。

复旦大学的韩金义、王欣怡等研究团队意识到了这个问题。他们发现,现有的AI自我改进方法都是"事后诸葛亮"式的,必须等到生成完整答案后才开始修正错误。这就像是画家必须画完整幅画作才能发现透视有问题,然后重新开始画,效率极其低下。更糟糕的是,一旦在推理的早期阶段出现错误,这些错误会像滚雪球一样越来越大,最终导致完全错误的结论。

为了解决这个问题,研究团队开发了一种名为PASR(ProActive Self-Refinement,主动自我精炼)的新方法。这种方法让AI像人类一样在生成过程中主动发现问题并及时修正,而不是被动地等到最后才进行大规模返工。

研究团队将这个问题类比为医生诊断疾病的过程。传统的AI方法就像是医生必须等到做完所有检查后才能重新考虑诊断思路,而PASR则让AI像经验丰富的医生一样,在诊断过程中随时根据新发现的症状调整诊断方向。

要理解PASR的工作原理,可以把AI的思考过程想象成厨师烹饪一道复杂菜肴的过程。传统方法下,厨师必须严格按照食谱把所有步骤执行完,即使中途发现调料放错了也不能修正,只能等最后品尝时发现问题再重新开始。而PASR就像让厨师获得了"边做边尝"的能力,可以在烹饪过程中随时调整调料和火候,确保每一步都朝着正确方向进行。

具体来说,PASR赋予了AI三项关键能力:第一是"什么时候需要反思",就像厨师知道什么时候该尝一下味道;第二是"应该反思什么内容",类似于厨师知道是调料的问题还是火候的问题;第三是"如何进行有效反思",就像厨师知道该加盐还是加糖来调整味道。

在技术实现上,研究团队采用了强化学习的方法来训练AI。这就像是为AI安排了一个严格的导师,不断地给出反馈:什么时候的反思是有价值的,什么时候的修正是画蛇添足,什么时候的坚持是正确的。通过这种方式,AI逐渐学会了在合适的时机做出合适的调整。

为了验证PASR的效果,研究团队进行了广泛的测试。他们选择了十个不同领域的任务,包括数学推理、常识问答、阅读理解等,就像是让AI参加一个综合性的技能大赛。结果令人振奋:PASR不仅提高了答题准确率,还大幅减少了计算资源的消耗。

在数学推理任务上,PASR的表现尤其出色。传统方法解决一个数学问题就像是学生必须把所有计算步骤都写完才能检查,经常发现前面的错误导致整个解答过程需要重来。而PASR让AI能够在计算过程中及时发现并纠正错误,就像经验丰富的数学老师在解题时会随时检验中间结果的合理性。

更令人惊讶的是效率的提升。传统的自我修正方法就像是盖房子时发现地基有问题必须重新开工,而PASR则像是在施工过程中随时调整,避免了大量的返工。实验结果显示,在Qwen3-8B模型上,PASR将平均计算消耗降低了41.6%,同时准确率还提升了8.2%。这就像是找到了一种既省时又省力还能做得更好的工作方法。

研究团队还深入分析了PASR的反思行为,发现AI主要进行四种类型的自我修正:错误纠正、信息补充、方案优化和任务对齐。错误纠正就像作家发现错别字立即修改;信息补充类似于演讲者发现某个要点没讲清楚立即补充;方案优化像是工程师在施工中发现更好的解决方案立即调整;任务对齐则是确保整个过程始终朝着正确目标前进,就像导航系统发现走错路立即重新规划路线。

为了确保PASR真正具备了主动反思能力而不是简单的模式匹配,研究团队设计了细致的验证实验。他们发现,PASR确实能够识别出哪些问题需要修正,哪些答案已经足够好不需要多余的调整。这就像是培养出了一个具有良好判断力的助手,知道什么时候该出手,什么时候该放手。

在与其他改进方法的对比中,PASR展现出了明显的优势。传统的提示工程方法就像是给AI一个详细的操作手册,但AI往往机械地执行而缺乏灵活性。监督学习方法虽然能让AI学会一些修正模式,但面对新情况时往往表现不佳。只有PASR真正让AI获得了类似人类的主动判断和调整能力。

研究团队特别强调,PASR的价值不仅在于提高了性能,更在于改变了AI的思维方式。传统AI像是一个只会按部就班工作的机器人,而PASR让AI更像是一个会思考、会调整的智能助手。这种变化的意义远超表面的性能提升,它代表了AI向更高级智能的重要一步。

值得注意的是,PASR并非万能药。研究团队坦诚地指出了方法的局限性:当问题超出AI的知识边界时,再多的自我反思也无法凭空产生正确答案;当AI的基础推理能力不足时,反思的效果也会受到限制。这就像是无论多么仔细的自我检查,也无法弥补基础知识的匮乏。

研究还发现,PASR的效果与基础模型的能力密切相关。在更强大的模型上,PASR能够发挥更大的作用,这提示我们,随着AI技术的不断发展,主动自我改进的潜力还有很大的挖掘空间。

从更广阔的视角来看,这项研究为AI的发展指明了一个重要方向:从被动执行到主动思考。这不仅仅是技术层面的改进,更是AI思维模式的根本性转变。就像人类从简单的条件反射进化出复杂的自我意识一样,AI也正在朝着更加智能和自主的方向发展。

PASR的成功也带来了一些有趣的思考。当AI具备了主动反思和调整的能力后,我们对AI智能的定义可能需要重新审视。传统上,我们认为AI只是执行预设程序的工具,但PASR让我们看到,AI正在获得类似人类的元认知能力,能够监控和调节自己的思维过程。

对于普通用户而言,PASR技术的应用前景十分广阔。无论是智能写作助手、在线教育辅导、还是专业咨询服务,都可以从这种更加智能的自我改进能力中受益。用户将能够获得更加准确、高效、个性化的AI服务体验。

研究团队已经将PASR的代码开源,这意味着全世界的研究者和开发者都可以在此基础上继续创新。这种开放的研究态度体现了科学共同体的协作精神,也将加速相关技术的发展和应用。

说到底,PASR代表的不只是一种技术改进,而是AI发展史上的一个重要里程碑。它让我们看到了AI从简单的输入输出机器向真正智能体转变的可能性。正如俗语所说"亡羊补牢,犹未为晚",但如果能"防患于未然",岂不是更好?PASR正是让AI获得了这种预见性和主动性的能力。

这项研究的意义可能要在未来几年甚至几十年后才能完全显现。就像当年互联网的发明者们可能没有预见到今天的数字化社会一样,PASR所开启的主动智能时代,也许会以我们意想不到的方式改变我们的生活。无论如何,这都是一个值得我们持续关注和思考的重要发展方向。

Q&A

Q1:PASR是什么?它跟传统的AI改进方法有什么区别?

A:PASR(主动自我精炼)是复旦大学团队开发的新技术,让AI能够在生成答案的过程中主动发现并修正错误,就像人类边写边改一样。传统方法只能等答案全部生成完再修改,效率低下且容易出错。

Q2:PASR技术能带来多大的性能提升?

A:实验结果显示,PASR在Qwen3-8B模型上将计算消耗降低了41.6%,同时准确率提升了8.2%。在数学推理等复杂任务上效果尤其明显,既节省了资源又提高了准确性。

Q3:普通用户什么时候能用上PASR技术?

A:研究团队已经将代码开源在GitHub上,开发者可以立即使用。对于普通用户,随着这种技术被集成到各种AI产品中,未来的智能写作、在线教育、咨询服务等都将变得更加智能和高效。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
现在的考试是“伪考试“大量刷题!上海市政协委员:取消中高考是早晚的事

现在的考试是“伪考试“大量刷题!上海市政协委员:取消中高考是早晚的事

看看新闻Knews
2026-02-04 15:23:04
离队56天!徐正源炮轰蓉城:高层一手操控球员转会 将我彻底架空

离队56天!徐正源炮轰蓉城:高层一手操控球员转会 将我彻底架空

风过乡
2026-02-06 09:24:38
李嘉诚遭零元购?巴拿马港口丢了?这局怎么破?

李嘉诚遭零元购?巴拿马港口丢了?这局怎么破?

看看新闻Knews
2026-02-05 18:39:22
受贿数额特别巨大,重庆市政协原副主席段成刚被提起公诉

受贿数额特别巨大,重庆市政协原副主席段成刚被提起公诉

界面新闻
2026-02-06 11:02:01
出口突破832万辆,究竟是谁在狂买中国车?

出口突破832万辆,究竟是谁在狂买中国车?

牲产队
2026-02-05 19:16:07
米莱赌赢了!阿根廷牵手美国锁死锂铜稀土,中国供应链遭围堵

米莱赌赢了!阿根廷牵手美国锁死锂铜稀土,中国供应链遭围堵

老马拉车莫少装
2026-02-05 20:03:58
“资助不起装什么孙子!”2006年,贫困大学生向海清向媒体怒斥

“资助不起装什么孙子!”2006年,贫困大学生向海清向媒体怒斥

百态人间
2026-02-05 15:42:49
中国AI拒绝仰视

中国AI拒绝仰视

正解局
2026-02-05 21:40:04
中国高净值人群:家庭资产6100万,66%的人不考虑移民,主要买美股

中国高净值人群:家庭资产6100万,66%的人不考虑移民,主要买美股

六子吃凉粉
2026-02-05 14:23:50
真相:古巴粮食危机——体制才是根本原因

真相:古巴粮食危机——体制才是根本原因

老头和你随便聊聊
2026-02-05 08:09:49
扶弟魔又来了!河南一女子打6年工攒下14万,被家人给弟弟买了A4

扶弟魔又来了!河南一女子打6年工攒下14万,被家人给弟弟买了A4

火山诗话
2026-02-06 11:43:31
台湾歌手上海丢万元外套,称美国就不这样,后被扒曾自称美国人

台湾歌手上海丢万元外套,称美国就不这样,后被扒曾自称美国人

离离言几许
2026-02-05 11:00:30
浙江省人大常委会原党组副书记、副主任高兴夫严重违纪违法被“双开”

浙江省人大常委会原党组副书记、副主任高兴夫严重违纪违法被“双开”

界面新闻
2026-02-06 10:04:12
7个省级政府领导班子调整

7个省级政府领导班子调整

上观新闻
2026-02-05 12:39:09
祖巴茨2换5交易评级:快船改变建队思路评A- 步行者补强内线评B

祖巴茨2换5交易评级:快船改变建队思路评A- 步行者补强内线评B

罗说NBA
2026-02-06 07:01:05
美国甩出重磅信息!家里有小孩的都吓哭了,内容相当炸裂

美国甩出重磅信息!家里有小孩的都吓哭了,内容相当炸裂

毛豆论道
2026-02-05 19:06:04
1个月100万佣金收入,年营收过亿:30岁女孩宣布退休,她是做啥的

1个月100万佣金收入,年营收过亿:30岁女孩宣布退休,她是做啥的

江山挥笔
2026-02-05 18:06:12
湖南发布寒潮蓝色预警:湘南部分地区平均气温将下降8~10℃

湖南发布寒潮蓝色预警:湘南部分地区平均气温将下降8~10℃

澎湃新闻
2026-02-06 12:13:03
时下我国庞大失业大军都去哪里了?主要有6个去处,你认同吗?

时下我国庞大失业大军都去哪里了?主要有6个去处,你认同吗?

慧翔百科
2026-02-05 10:05:22
爱尔眼科董事长卷入精神病院骗保风波,欲撇清关系的爱尔眼科股价还在跌

爱尔眼科董事长卷入精神病院骗保风波,欲撇清关系的爱尔眼科股价还在跌

第一财经资讯
2026-02-06 11:00:09
2026-02-06 12:28:49
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
7158文章数 549关注度
往期回顾 全部

科技要闻

微信封禁元宝红包后,又把阿里千问封了

头条要闻

特朗普发文支持高市早苗选举 宣布其将于3月19日访美

头条要闻

特朗普发文支持高市早苗选举 宣布其将于3月19日访美

体育要闻

西甲射手榜第2,身价不到姆巴佩1/40

娱乐要闻

微博之夜红毯好精彩,堪比婚礼现场

财经要闻

很意外,美债危机要化解了

汽车要闻

标配华为乾崑解决方案 华境S完成六座满载冬测

态度原创

本地
健康
旅游
家居
军事航空

本地新闻

围观了北京第一届黑色羽绒服大赛,我笑疯了

转头就晕的耳石症,能开车上班吗?

旅游要闻

三大片区庙会联动 来北京朝阳过“潮”年

家居要闻

现代轻奢 温馨治愈系

军事要闻

不惧以军拦截 “全球坚韧船队”将再赴加沙

无障碍浏览 进入关怀版