网易首页 > 网易号 > 正文 申请入驻

可信大模型新挑战:噪声思维链提示下的鲁棒推理,准确率直降40%

0
分享至

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

当前,大语言模型(Large Language Model, LLM)借助上下文学习(In-context Learning)和思维链提示(Chain of Thoughts Prompting),在许多复杂推理任务上展现出了强大的能力。

然而,现有研究表明,LLM 在应对噪声输入时存在明显不足:当输入的问题包含无关内容,或者遭到轻微修改时,模型极容易受到干扰,进而偏离正确的推理方向。如图 1 左所示,Q1 中的「We know 6+6=12 and 3+7=10 in base 10」 是关于 base-9 计算的噪声信息,该信息容易误导模型输出错误的结果。

图 1. 噪声问题(Noisy Questions)和噪声思维链(Noisy Rationales)的示例

已有的鲁棒研究大多侧重于噪声问题(Noisy Questions),然而,LLM 在噪声思维链(Noisy Rationales)下的推理还没有得到充分的探究。在本工作中,我们将噪声思维链定义为:包含不相关或者不准确推理步骤的思维链,如图 1 右侧 R1 中的「13 + 8 = 21」步骤,对于 base-9 计算来说,是错误的推理步骤。

这些噪声思维链通常源自 LLM 的实际应用,比如众包平台、对话系统、机器生成数据等场景,人类和机器在推理中都会不可避免地犯错,从而产生噪声思维链。因此,噪声思维链的实际影响和技术挑战不容小觑。当前,我们仍然不清楚 LLM 在面对噪声思维链提示时的鲁棒性能如何,也缺少有效的应对策略。因此,非常有必要构建一个新的数据集,用于系统评估当前 LLM 在噪声思维链场景下的鲁棒性,以及验证相应的鲁棒推理策略。

对此,我们构建了NoRa 数据集,并进行了大量的实验评测。结果表明,GPT-3.5-Turbo、Gemini-Pro、Llama2-70B 和 Mixtral-8x7B 等开源或闭源 LLM 都极容易受到噪声思维链的影响。其中,GPT-3.5-Turbo 的准确率至多可降低40.4%。因此,我们也呼吁大家更多地关注大模型推理的鲁棒性问题。

我们的主要贡献有如下三点:

  • 新问题:对当前流行的思维链提示技术,我们提出了尚未充分探究的噪声思维链问题(Noisy Rationales),并给出了详细的问题定义和统一的问题建模;
  • 新数据集:我们构建了 NoRa 数据集,用于评测 LLM 在噪声思维链提示下的推理鲁棒性。我们使用 NoRa 数据集对 LLM 展开系统评估,揭露了 LLM 推理的鲁棒性不足,数据去噪能力非常有限的问题;
  • 新方法:我们设计了一种简单有效的方法(CD-CoT),基于单个正确的思维链示例,去纠正噪声思维链并完成推理,并通过大量实验验证了方法的有效性。

接下来将从新问题、新数据集、新方法这三个角度,简要地介绍我们关于大模型推理鲁棒性的研究结果,相关论文已发表于 NeurIPS 2024 会议。

  • 论文标题:Can Language Models Perform Robust Reasoning in Chain-of-thought Prompting with Noisy Rationales?
  • 论文链接:https://arxiv.org/pdf/2410.23856
  • 代码链接:https://github.com/tmlr-group/NoisyRationales
  • slides 链接:https://andrewzhou924.github.io/_pages/data/slides-NoRa.pdf

新问题:Noisy Rationales

思维链可以有效提升大模型的推理能力 [1]。具体来说,通过给出带有中间推理步骤的示例,LLM 可以很快地适应到新任务上,而无需进行参数修改(见图 2 右上角)。现有工作中,通常假设思维链包含清楚且正确的推理步骤,但实际情况可能并非如此。

图 2. 各种 setting 下的模型输入

目前,已经有许多工作探索了 Noisy Questions 对 LLM 推理性能的影响(见图 2 左下角),揭示了 LLM 对输入中微小修改的敏感性 [2,3]。

然而,在人工标注或机器生成的思维链中,可能会包含一些与问题不相关或不准确的推理步骤(见图 2 右下角),这些噪声思维链可能会对推理性能产生负面影响,但目前 LLM 对噪声思维链(Noisy Rationales)的鲁棒性依旧未知。

因此,本文提出了新的研究问题 Noisy Rationales:当示例的推理步骤中包含无关的或者不准确的内容时,LLM 的推理鲁棒性如何?对这一问题的探索,有助于深入理解和提升 LLM 在非完备场景中的推理能力。

新数据集:NoRa

为了评估 LLM 在噪声思维链下的鲁棒性,我们构建了 NoRa(Noisy Rationales)数据集,NoRa 涵盖了 3 种推理任务类型:数学推理、符号推理和常识推理,共包含26391个问题以及5种子任务。

一条思维链(Rationale)包含多个连续的推理步骤(Thoughts);噪声思维链(Noisy Rationale)包含的噪声推理步骤(Noisy Thoughts)被定义为如下两类(示例见图 3):

  • 不相关噪声(Irrelevant Thoughts)是指对解决问题无用的信息,如在推断亲属关系时讨论探讨兄弟姐妹之间的基因重叠情况;
  • 不准确噪声(Inaccurate Thoughts)则是推理中的事实性错误,如在特定进制计算中使用错误的计算规则。

图 3. NoRa 数据集的样本

在构建数据集时,我们通过插入 Noisy Thoughts 来生成噪声思维链,这些噪声仅影响推理链的细节,而不改变问题和最终答案的正确性。此外,我们使用不同的噪声比例(Noise Ratio,即 Noisy Thoughts 占所 Thoughts 的比例,如 0.3、0.5、0.8)来控制任务的困难程度,Noise Ratio 越大任务难度也越大。NoRa 数据集的统计信息如图 4 所示。

图 4. NoRa 数据集的统计信息

NoRa 数据集 测评结果

我们以 GPT-3.5-Turbo 为 base model,测试了其在 NoRa 上的表现,并且对比了多种去噪方法。这些去噪方法可以分为两类:

  • 自我纠正方法(Self-correction):包括 Intrinsic Self-correction (ISC) [4] 和 Self-polish (SP) [5];
  • 自我一致性方法(Self-consistency):包括 SmoothLLM (SM) [6],Self-denoise (SD) [7] 和 Self-consistency (SC) [8]。

图 5. 各种去噪方法 在 NoRa 数据集上的测评结果

实验结果(图 5)表明:

  1. 无论采取哪种现有方法,LLM 都会受到噪声思维链的严重影响。具体来说,存在不相关噪声时,各方法的性能下降了 0.2% - 25.3%;存在不准确噪声时,各方法的性能下降了 0.1% - 54.0%;
  2. 在 NoRa 的大多数任务中,自我纠正方法的表现不佳
  3. 自一致性方法可以在一定程度上缓解噪声的影响,但无法做到真正的数据去噪

此外,我们还进行了各种消融研究,来探索不同因素对 NoRa 数据集评估结果的影响(见图 6),我们发现:

  1. 调整温度系数可以改善模型在噪声思维链下的推理性能;
  2. 使用更多的噪声示例可以提高大多数任务的推理性能;
  3. 不同的大语言模型普遍容易受到噪声思维链的影响。

图 6. 消融实验:(左) 温度系数对性能的影响;(中) 示例个数对性能的影响;(右) 各种模型的性能

新方法:CD-CoT

根据测评结果,大语言模型在应对噪声思维链提示时,其自身的去噪能力非常有限;即便使用自我纠正或自一致性方法,效果仍不理想。

因此,我们认为有必要引入外部监督信号来增强模型鲁棒性,且这种监督信号既要足以实现去噪,又要在实际应用中切实可行。对此,我们提出了一种简单有效的去噪推理方法,CD-CoT(Contrastive Denoising with Noisy Chain of Thoughts)

CD-CoT 借鉴了对比学习的思路,通过让 LLM 显式地对比有噪和干净的思维链,从而识别出噪声信息。方法主要包括四个关键步骤,步骤 1&2 进行显式的去噪,步骤 3&4 进行精细推理并获得最终答案。

四个步骤具体如下:

  1. 改写思维链:借助一个干净的思维链示例,引导 LLM 通过对比改写和纠正噪声思维链,并生成多个改写的思维链(见图 7 step1);
  2. 选择思维链:通过答案匹配,筛选出改写后答案不变的思维链,形成精炼的候选集;再从中随机选取一定数量的思维链,用于后续的推理(见图 7 step2);
  3. 探索推理链:将选取的思维链排列成不同的上下文,与目标问题一同输入给 LLM,并采用较高的温度参数进行多次重复推理,以探索多样的推理路径(见图 8 step3);
  4. 答案投票:将所有得到的答案进行投票,得到最终答案(见图 8 step4)。

完整的 CD-CoT 算法请见图 9。

图 7. CD-CoT 算法的步骤 1&2

图 8. CD-CoT 算法的步骤 3&4

图 9. 完整的 CD-CoT 算法

CD-CoT 实验结果

我们在 NoRa 数据集上全面测试了 CD-CoT,并对比了多个需要额外监督信息的去噪方法(见图 10),我们发现:

  1. 当面对噪声思维链时,与 base model 相比,CD-CoT 在所有数据集上的性能均有显著提升,准确率平均提升幅度达到 17.8%
  2. CD-CoT 对高噪声表现出显著的抵抗力,尤其在更具挑战的数学推理任务中

图 10. 各种需要额外监督信息的方法 在 NoRa 数据集上的测评结果

此外,通过诸多消融实验,我们发现:

  1. 关于 CD-CoT 超参数的消融实验结果显示,干净的思维链示例在 CD-CoT 中扮演着关键的角色;当变化 N,M,C 等超参数的取值时,准确性仅呈现出细微的变化(见图 11)。在论文中,我们默认采用 M 设为 2 的 CD-CoT 示例,以在效率和效果之间取得平衡;
  2. CD-CoT 在不同的 LLM 上具有良好的泛化能力,与 base model(GPT-3.5-Turbo 和 Gemini-Pro)相比,其准确率分别提高了23.4%21.6%,并超越了所有基线方法(见图 12)。

图 11. 关于 CD-CoT 超参数的消融研究

图 12. 关于 CD-CoT 在不同 LLM 上的效果的消融研究

更多的实验分析和技术细节,请移步参阅我们的论文及源码,我们也将持续更新本工作的内容。

我们希望通过这项工作,呼吁人们更多地关注 LLM 推理的鲁棒性问题,并开展关于大模型推理鲁棒性的探讨与研究。非常感谢大家关注我们的工作!

参考文献

[1] Wei J, Wang X, Schuurmans D, et al. Chain-of-thought prompting elicits reasoning in large language models. NeurIPS 2022.

[2] Shi F, Chen X, Misra K, et al. Large language models can be easily distracted by irrelevant context. ICML 2023.

[3] Tian Q, Zhu H, Wang L, et al. R3 Prompting: Review, Rephrase and Resolve for Chain-of-Thought Reasoning in Large Language Models under Noisy Context. EMNLP 2023.

[4] Huang J, Chen X, Mishra S, et al. Large language models cannot self-correct reasoning yet. ICLR 2024.

[5] Xi Z, Jin S, Zhou Y, et al. Self-polish: Enhance reasoning in large language models via problem refinement. EMNLP 2023.

[6] Robey A, Wong E, Hassani H, et al. Smoothllm: Defending large language models against jailbreaking attacks. Arxiv 2023.

[7] Zhang Z, Zhang G, Hou B, et al. Certified robustness for large language models with self-denoising. Arxiv 2023.

[8] Wang X, Wei J, Schuurmans D, et al. Self-Consistency Improves Chain of Thought Reasoning in Language Models. ICLR 2023.

课题组介绍

香港浸会大学可信机器学习和推理课题组 (TMLR Group) 由多名青年教授、博士后研究员、博士生、访问博士生和研究助理共同组成,课题组隶属于理学院计算机系。课题组专攻可信表征学习、可信基础模型、基于因果推理的可信学习等相关的算法,理论和系统设计以及在自然科学上的应用,具体研究方向和相关成果详见本组 GitHub (https://github.com/tmlr-group)。

课题组由政府科研基金以及工业界科研基金资助,如香港研究资助局杰出青年学者计划,国家自然科学基金面上项目和青年项目,以及微软、英伟达、字节跳动、百度、阿里、腾讯等企业的科研基金。青年教授和资深研究员手把手带,GPU 计算资源充足,长期招收多名博士后研究员、博士生、研究助理和研究实习生。此外,本组也欢迎自费的访问博士后研究员、博士生和研究助理申请,访问至少 3-6 个月,支持远程访问。有兴趣的同学请发送个人简历和初步研究计划到邮箱 (bhanml@comp.hkbu.edu.hk)。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
女孩身高2米26貌美如花,妈妈天天发愁:白长这么漂亮,没人敢追

女孩身高2米26貌美如花,妈妈天天发愁:白长这么漂亮,没人敢追

凉州辞
2026-05-07 07:25:03
德雷森:让仅执法过15场欧冠的裁判执法这级别的比赛让人惊讶

德雷森:让仅执法过15场欧冠的裁判执法这级别的比赛让人惊讶

懂球帝
2026-05-07 06:21:03
蜿蜒钢轨“连”万家 细微服务“暖”民心

蜿蜒钢轨“连”万家 细微服务“暖”民心

中国网
2026-05-06 11:09:11
刘国梁辞职还没完!威海注册17家公司被曝出,关联王楠郭斌夫妇!

刘国梁辞职还没完!威海注册17家公司被曝出,关联王楠郭斌夫妇!

拳击时空
2026-05-07 05:47:22
妻子出轨后,对方妻子主动联系我,提议搭伙过日子每月给我五万块

妻子出轨后,对方妻子主动联系我,提议搭伙过日子每月给我五万块

千秋文化
2026-05-05 20:25:29
人到中年后,为什么很难快乐起来?网友:都是陈塘关村民罢了!

人到中年后,为什么很难快乐起来?网友:都是陈塘关村民罢了!

夜深爱杂谈
2026-05-05 10:24:06
2-1夺WTA首胜!中国女网15岁天才闪耀成人赛:看齐郑钦文王欣瑜?

2-1夺WTA首胜!中国女网15岁天才闪耀成人赛:看齐郑钦文王欣瑜?

李喜林篮球绝杀
2026-05-06 10:33:13
上千吨香蕉烂在手里,菲律宾香蕉协会:中国断了30万蕉农的生计!

上千吨香蕉烂在手里,菲律宾香蕉协会:中国断了30万蕉农的生计!

据说说娱乐
2026-05-06 14:56:48
C罗未婚妻和前女友同时走红毯,乔治娜穿婚纱催婚,伊莉娜秀身材

C罗未婚妻和前女友同时走红毯,乔治娜穿婚纱催婚,伊莉娜秀身材

艺兔体坛
2026-05-06 18:05:33
5天百万内地人涌向香港,并看到了香港的另一面

5天百万内地人涌向香港,并看到了香港的另一面

港你知
2026-05-06 21:44:51
墨菲:英国年轻球员应向吴宜泽学习,赵心童不可能统治斯诺克!

墨菲:英国年轻球员应向吴宜泽学习,赵心童不可能统治斯诺克!

世界体坛观察家
2026-05-06 05:35:12
单张高达200万美元,FIFA主席回应天价世界杯决赛门票:没问题,美国法律允许门票高于原价高价转售

单张高达200万美元,FIFA主席回应天价世界杯决赛门票:没问题,美国法律允许门票高于原价高价转售

都市快报橙柿互动
2026-05-07 09:35:44
美国会全票通过芯片封锁法案,成本暴涨,白宫24小时两次致电北京

美国会全票通过芯片封锁法案,成本暴涨,白宫24小时两次致电北京

流史岁月
2026-05-06 14:25:04
郑丽文向韩国瑜“负荆请罪”!这波操作,蓝营彻底炸锅了!

郑丽文向韩国瑜“负荆请罪”!这波操作,蓝营彻底炸锅了!

两岸观点
2026-05-06 23:10:20
谢娜仨女儿全像张杰,这才是基因的 “降维打击”

谢娜仨女儿全像张杰,这才是基因的 “降维打击”

南万说娱26
2026-05-07 09:33:49
震惊!月薪9500元男子被相亲女嫌弃,直言不合适,其对话登上热搜

震惊!月薪9500元男子被相亲女嫌弃,直言不合适,其对话登上热搜

火山詩话
2026-05-06 06:50:06
特朗普直接掀桌,以色列下达绝杀令!中方的预判果然应验

特朗普直接掀桌,以色列下达绝杀令!中方的预判果然应验

立刻受到开始的覅
2026-05-07 06:15:45
次轮8支球队全部亮相,具备夺冠实力的只有2队,骑士马刺希望不大

次轮8支球队全部亮相,具备夺冠实力的只有2队,骑士马刺希望不大

毒舌NBA
2026-05-06 14:06:31
国乒女团变阵冲8强!蒯曼被弃用,王艺迪上阵,孙颖莎王曼昱登场

国乒女团变阵冲8强!蒯曼被弃用,王艺迪上阵,孙颖莎王曼昱登场

刘姚尧的文字城堡
2026-05-06 19:00:40
俄副部长叛逃美国,俄军每天最低伤亡千人,仍在组织新攻势!

俄副部长叛逃美国,俄军每天最低伤亡千人,仍在组织新攻势!

知兵
2026-05-04 16:06:33
2026-05-07 10:11:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12930文章数 142643关注度
往期回顾 全部

科技要闻

三星停止在中国大陆销售家电!知情人回应

头条要闻

牛弹琴:一位特殊的客人来到北京 12个细节很意味深长

头条要闻

牛弹琴:一位特殊的客人来到北京 12个细节很意味深长

体育要闻

活塞1比0骑士:坎宁安不再是一个人了

娱乐要闻

谢娜演唱会暗藏惊喜 何炅瞒天过海现身

财经要闻

特朗普:美伊“很有可能”达成协议

汽车要闻

领克10/领克10+ 无论能源形式 领克都要快乐

态度原创

数码
房产
亲子
本地
公开课

数码要闻

AMD发布26.5.1驱动更新:支持《识质存在》游戏

房产要闻

遥遥领先!这个澄迈顶流红盘,凭什么持续霸榜

亲子要闻

自私的娃

本地新闻

用青花瓷的方式,打开西溪湿地

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版