网易首页 > 网易号 > 正文 申请入驻

浙大等团队提出全新「自我对比」策略,有效提高大模型的反思效果

0
分享至

大型语言模型(LLM)的自我反思能力受到了广泛关注。例如 Reflexion,Self-Refine 等 prompt 策略让 LLM 基于自我评估或外部的反馈来改善 LLM 的输出质量。但是,最新研究显示,在缺乏外部反馈的情况下,LLM 内在的反思能力是十分不稳定的,有时候甚至会产生负面的效果,尤其是在数学推理等复杂场景。

来自浙江大学的研究者发现,LLM 自我反思的关键在于自我评估(self-evaluate)时的 feedback 的质量。他们注意到,LLM 在自我评估时常表现出过度自信(Overconfident)或高度随机性(Inconsistent),即 LLM 往往会提供十分顽固或很随机的 feedback,从而导致反思效果不理想。

为了提高 LLM 的内在反思能力,作者们提出了一种新颖的自我对比(Self-Contrast)策略:它根据用户输入的问题,探索多种不同的解题视角,然后让 LLM 对比这些视角间的差异,最后将这些差异汇总成一份检查清单,用以帮助 LLM 重新审视和消除这些差异,实现更稳定的自我反思。

图1. Self-Contrast 示意图

Self-Contrast 为 LLM 提供了多样化的解题视角,有助于减轻其固有的偏见。更重要的是,不同视角的推理过程之间的差异往往揭示了一些容易被 LLM 忽略的潜在错误或固有不确定性。因此可以利用这种多个推理过程之间的差异实现更准确和稳定的自我反思。作者们在数学推理(GSM8K)和创意翻译任务(CommonMT)上评估 Self-Contrast,都取得了良好的提升。

论文题目: Self-Contrast: Better Reflection Through Inconsistent Solving Perspectives 论文链接: https://arxiv.org/abs/2401.02009

一、LLM的反思过程存在什么问题?

1.1 反思前后性能变化

首先作者在数学推理和翻译任务上详细地对比了反思前后精度差异,并且还计算了前后精度变化的显著度。值得注意的是,该文章研究的是 LLM 自身的反思能力,即没有任何外部 feedback 下,仅仅依靠 LLM 自身能否实现反思。

(Table 1)从实验结果来看反思并没有真正带来提升,有时候甚至还有负面的作用。即反思导致了性能下降。

1.2 对反思中产生的feedback分析

更进一步的作者研究为何反思没有带来性能提升。在 GSM8K 上他们定义了几种反思行为

1- 有效反思(Valid):错误回复被改正确, 统计有 48 例

2- 无效反思(Invalid):错误没有被改正, 统计有 269 例

3- 有毒反思(Toxic):刚开始正确的回复被反而被改错, 统计有 52 例

(Table 2)因为有效反思和有毒反思的数量差不多类似,所以整体来看反思并没有带来提升。

此外,作者们分析了这几种反思行为对应的 Self-evaluate 过程的 feedback,发现这些 feedback 存在很大的问题。他们发现 feedback 主要存在两种情况

1- 过于顽固的 feedback:初次回复中明明是存在明显的错误,但是 LLM 自我评估时候坚持认为没有任何问题

2- 多次自我评估的 feedback 不一致:对于同一个回复,多次自我评估产生的 feedback 非常不一致,有时候认为没问题,有时候觉得 step1 有问题,有时候觉得 step2 有问题。

例如 table2 中显示,对于 Invalid 的反思类别中 53.5% 都是顽固的 feedback,45.3% 的情况下 LLM 无法产生稳定一致的反馈。

二、自我对比策略

自我对比包含三个步骤:


  • 创建多样化视角



  • 对比视角间的差异



  • 消除差异


他们首先鼓励 LLM 自主地根据用户的问题场景创造一系列 prompt,每个 prompt 都提供了一个独特的问题解决视角,例如不同的思维方式、身份设定、不同的个性或偏好。这些多元化的视角促使 LLM 生成不同的 responses。

其次 LLM 这些 responses 之间的差异进行对比分析。最后,他们将这些差异转化为一个详尽的检查清单(checklist),用于检查和反思。这个 checklist 指导 LLM 仔细检查导致视角间结果不一致的差异原因,例如随机错误或固有偏见。

上图是在翻译场景下的一个例子。首先 LLM 根据用户输入的翻译句子: 这个计划被枪毙了,LLM 自己设计了多个翻译的 prompt,每个 prompt 代表一个翻译视角,例如直译视角,意译视角,军事视角,文化视角等等。然后每个 prompt 输入 LLM 得到一个翻译结果。过滤了相似的结果,得到了三个不同的候选翻译(result1, result2, result5)。然后三个候选结果之间两两对比,得到了三个差异。

这些差异包括用词,情感上的区别,例如 result1 的翻译 “shot to death” 和 result2 的翻译 “axed” 相比,LLM 对比他们两后发现他们两的不同是因为对源句子“被枪毙”的理解有所不同,“shot to death” 比较生硬。最后 LLM 将这些差异总结成一个 checklist 用于反思。

在数学推理场景下也是类似,对比不同解题过程,很容易发现一些差异,也就是一些细微的错误:

三、自我对比策略对反思的效果

3.1 Self-Contrast改善了LLM反思的性能

作者比较了一些 baselines,包括 self-reflection,self-consistency,multi-agent 等方法,比较了反思后性能以及所消耗的 token 数

作者发现这种 self-contrast 策略可以在数学推理和翻译任务上比较稳定地提升反思效果,并且具有较好的泛化性,在不同的 LLMs 上都可以观察到提升。此外 self-contrast 所消耗的 tokens 也可以接受,略低于 self-consistency。

3.2 为何self-contrast能增强反思

作者发现,self-contrast 能让反思有效的原因在于 self-contrast 能够减少了上文提及的无效反思(Invalid)和有害的反思(Toxic)。正如 table6 中展示的效果,这两种 cases 均减少了,因而反思更有效果。

此外,作者还提出了一个问题:

Self-Contrast 的核心在于对比。如果对比的两个 solutions 都不正确,是否也有效果。

在 table7 中作者研究了这个问题。他们划分了三种情况:


  1. 对比一个正确一个错误的 solutions



  2. 对比两个都不正确的 solutions,并且有相似的错误



  3. 对比两个都不正确的 solutions, 但是错误不相似。


作者发现只要两个 solutions 不相似,对比就可能带来提升(70.1% to 75.5%)。这也很好理解,例如 solution1 只有 step1 有问题,solution2 中 step2 有问题,两个 solutions 一对比,有可能就让 LLM 发现他们各自的问题。但是如果两个 solutions 都十分相似,那对比他们之间的差异也就是去了意义(70.9%)。

四、总结

在本文中,作者对大型语言模型的内在反思能力进行了全面的研究。研究结果显示了一个显著的挑战:在没有外部反馈的情况下,LLM 难以自行纠正之前回应中的错误。通过分析它们的自我评估过程,作者发现 LLM 无法准确评估之前的解决方案,并且经常给出过于自信或不一致的反馈,这限制了它们的反思能力。

为了改善这一情况,本文提出了“自我对比”策略,这是一种通过对比多个视角之间的差异来找到一些潜在错误,将对比的结果总结一个详细的检查清单,从而用于反思。实验表明,“自我对比”在不同的场景和应用于不同的 LLM 时都表现出色。

Illustration From IconScout By Delesign Graphics

-The End-

扫码观看!

本周上新!

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线500+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

投稿方式

发送邮件到

chenhongyuan@thejiangmen.com

或添加工作人员微信(chemn493)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。

关于我“门”

将门是一家以专注于数智核心科技领域新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角,把文章分享到朋友圈

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
Karpathy内部Claude.md泄露!亲手终结提示词时代

Karpathy内部Claude.md泄露!亲手终结提示词时代

新智元
2026-06-27 16:12:15
勇士自由市场连出三笔操作,阵容完成补强,西部竞争格局迎来变化

勇士自由市场连出三笔操作,阵容完成补强,西部竞争格局迎来变化

林子说事
2026-06-27 12:25:23
极目深度丨致命爱情:无法分手的男友、难以逃脱的控制

极目深度丨致命爱情:无法分手的男友、难以逃脱的控制

极目新闻
2026-06-26 20:07:10
53万人小国,4战3碰世界冠军,足协才10人,淘汰阿根廷将剑指巅峰

53万人小国,4战3碰世界冠军,足协才10人,淘汰阿根廷将剑指巅峰

我就是一个说球的
2026-06-27 17:05:03
正当防卫被判死刑,枪决前6分钟被最高法紧急叫停,董伟案始末

正当防卫被判死刑,枪决前6分钟被最高法紧急叫停,董伟案始末

易玄
2026-05-25 01:45:09
女子称酒后家中遭男子性侵,DNA鉴定显示两人发生过性关系,警方认为无犯罪事实不予立案;律师说法

女子称酒后家中遭男子性侵,DNA鉴定显示两人发生过性关系,警方认为无犯罪事实不予立案;律师说法

大风新闻
2026-06-26 15:32:22
39岁梅西末轮只踢20分钟?不为破纪录,原因让人肃然起敬

39岁梅西末轮只踢20分钟?不为破纪录,原因让人肃然起敬

陈錈爱体育
2026-06-27 04:34:18
17只滞涨股下周将实施大额分红

17只滞涨股下周将实施大额分红

证券时报
2026-06-27 08:38:07
女老板帮嫌犯疏通关系“摆平”案件向警察行贿,民警收了20万元结果没办成事,嫌犯控告中间人诈骗;女老板、民警均被判刑

女老板帮嫌犯疏通关系“摆平”案件向警察行贿,民警收了20万元结果没办成事,嫌犯控告中间人诈骗;女老板、民警均被判刑

大风新闻
2026-06-27 16:37:07
湖南钢铁集团什么级别?董事长是什么级别?

湖南钢铁集团什么级别?董事长是什么级别?

白浅娱乐聊
2026-06-27 15:39:01
世界杯出线形势:32强已定28席!12队出局 淘汰赛首轮9组对决出炉

世界杯出线形势:32强已定28席!12队出局 淘汰赛首轮9组对决出炉

我爱英超
2026-06-27 13:21:31
26岁江西男子全飞秒近视手术顺利,1月后失明,医生:犯了2个错误

26岁江西男子全飞秒近视手术顺利,1月后失明,医生:犯了2个错误

黄家湖的忧伤
2025-07-16 17:28:49
长期吃这种水果,可以延寿45%?Nature:是真的,而且它还能抗癌

长期吃这种水果,可以延寿45%?Nature:是真的,而且它还能抗癌

凤凰卫视
2026-06-25 18:14:11
美的PortaSplit分体式空调在欧卖脱销:老外直言一生中最棒的投资

美的PortaSplit分体式空调在欧卖脱销:老外直言一生中最棒的投资

快科技
2026-06-26 10:15:07
知恩图报?顶流网红莫氏鸡煲公开感谢千万粉博主:带火我,债还清

知恩图报?顶流网红莫氏鸡煲公开感谢千万粉博主:带火我,债还清

雷科技
2026-06-26 15:04:39
浙江723分学霸爆火!抛开天赋!他身上3个特质值得所有孩子学!

浙江723分学霸爆火!抛开天赋!他身上3个特质值得所有孩子学!

侃故事的阿庆
2026-06-27 09:03:51
反腐|河北拿下一名区委书记!

反腐|河北拿下一名区委书记!

新区晚参
2026-06-27 00:50:44
日元崩了,人没了,工厂停了:日本正在“安静地死去”

日元崩了,人没了,工厂停了:日本正在“安静地死去”

梁濆爱玩车
2026-06-27 08:17:34
乌总统称乌军打击俄军工厂

乌总统称乌军打击俄军工厂

环球网资讯
2026-06-27 18:11:11
美光高管怒怼苹果:芯片涨45美元 你终端加价250美元 压力加倍转给消费者

美光高管怒怼苹果:芯片涨45美元 你终端加价250美元 压力加倍转给消费者

快科技
2026-06-27 18:11:05
2026-06-27 19:07:00
将门创投 incentive-icons
将门创投
加速及投资技术驱动型初创企业
2414文章数 596关注度
往期回顾 全部

科技要闻

GPT-5.6发布,你暂时用不了!Mythos也放行

头条要闻

两不满14岁女孩称被强奸警方立案后撤案 办案刑警回应

头条要闻

两不满14岁女孩称被强奸警方立案后撤案 办案刑警回应

体育要闻

世界杯最火门将,站到了阿根廷和梅西面前

娱乐要闻

四提白玉兰终封后,杨紫:仍觉不真实

财经要闻

OpenAI推迟IPO重创软银!

汽车要闻

搭载华为乾崑ADS 5 全新猛士M817上市售29.99万起

态度原创

亲子
数码
房产
教育
艺术

亲子要闻

混血,是亚洲人的基因倒退?

数码要闻

贝尔金14合1雷电5拓展坞开售:支持140W PD供电,2299元

房产要闻

全国高考大放水,300分就能上本科!论上岸率,海南没输过!

教育要闻

25万位次考生能上河南师范大学?心动吗?中外合作办学第一年招生,电气专业及自动化 物理学 计算机 专业多多任你选

艺术要闻

这才是草书的“天花板”,水平高过王羲之

无障碍浏览 进入关怀版