网易首页 > 网易号 > 正文 申请入驻

MetaAI提出全新验证链框架CoVE,大模型也可以通过“三省吾身”来缓解幻觉现象

0
分享至

曾子曰:“吾日三省吾身”

–出自《论语·学而》

时至今日,生成幻觉(hallucination)仍然是大模型研究界中一个令人非常头疼的问题。 生成幻觉是指大语言模型在针对一些问题给出看似合理但不符合真实事实的虚假回答 ,这对于大模型在一些风险场景中的落地应用提出了更高的要求。本文介绍一篇来自MetaAI的最新研究工作, 本文参考大模型核心技术思维链(CoT)的设计模式,提出了一种大模型自身纠正错误(自省)的方法框架,称为验证链(Chain-of-Verification,CoVE)。 CoVE首先会让模型根据用户输入的问题草拟一个初始回答, 然后规划出一个对该初始回答进行事实核查的验证计划,随后使模型独立回答这些验证问题,保证问题之间不会产生影响 ,最后模型会综合以上所有信息产生一个验证结果。 作者在MultiSpanQA和长格式文本生成等任务上进行了大量的实验,实验表明,CoVE方法可以有效缓解LLMs在各种任务中的生成幻觉现象。

论文名称: Chain-of-Verification Reduces Hallucination in Large Language Models 论文链接: https://arxiv.org/abs/2309.11495

一、引言

LLMs的训练语料库规模非常庞大, 通常包含数十亿的文本标记数据,目前有很多研究表明,随着模型参数数量的增加,LLMs可以生成更多正确的事实陈述。 但是对于一些位于数据集尾部分布的问题,即使是规模最大的模型仍然会出现幻觉现象,尤其是在一些长文本生成或长篇文本理解任务中。此外,目前LLMs的研究重心已经逐渐转向研究其在复杂问题上的推理能力。 因此基于这一研究方向,本文作者开始考虑如何在模型生成的内部思维推理链上实现一些操作来缓解模型的幻觉现象 ,并提出了一种称为验证链的CoVE方法, CoVE方法使大模型先生成一个初始回答草稿,并根据草稿生成自我检查的验证计划 ,然后根据计划系统的回答这些子问题, 最终根据子问题的结果来生成最终的响应,这一过程非常像大模型在自己进行“三省吾身”。 作者发现,CoVE通过独立验证问题的方式会相比原始长回答带来更加准确的事实信息。

二、本文方法2.1 整体框架流程

本文提出的CoVE框架主要分为以下四个核心步骤:

(1)生成基线响应: 给定一个用户查询文本,使用LLM生成第一个草稿响应。

(2)验证计划的制定:根据输入查询和基线响应文本, LLM需要生成一个可以验证问题回答正确性的列表 ,这有助于LLM开启自我分析进程。

(3)执行验证计划: LLM需要依次回答每个验证问题,然后将答案与原始响应进行检查,以检查是否存在不一致的情况或错误。

(4)生成最终验证响应: LLM需要根据执行验证计划得到的不一致情况(如果有) ,综合生成包含验证结果的修正后响应。

上述四个步骤的执行情况如上图所示,这里给出了一个ChatGPT生成幻觉的示例,可以看到, CoVE对验证计划列表中的每个问题进行单独处理后,可以产生出与初始基线响应事实性完全相反的结果(希拉里·克林顿事实出生在芝加哥) ,通过回答这些问题并检查生成答案与基线响应是否一致,CoVE就可以将幻觉现象检测出来并进行更正。

2.2 执行验证计划的不同方式

上一小节中列出的四个步骤均需要提示同一个LLM来获得响应,其中步骤(1)(2)和(4)都可以通过单个文本提示来进行调用, 但是对于幻觉检查质量的关键其实是在步骤(3)中的验证计划执行 ,因此作者对步骤(3)设计了多个不同版本,包括联合方法、2-step方法和分解方法。 这些不同的版本涉及到单个提示、两个提示或每个问题独立的提示 ,其中分解方法的执行较为复杂,但是可以直接改进生成的结果。

2.2.1 联合方法

对于最简单的联合方法, 计划和执行都是通过使用单个LLM提示来完成的 ,但是这种方法存在一个明显的缺陷, 由于验证问题必须以初始基线响应为条件,因此这样联合产生的验证答案极有可能与初始响应中的内容有关,这有可能会在验证过程中产生二次幻觉。

2.2.2 2-step方法

为了解决联合方法中存在的问题,作者将计划和执行分成单独的步骤,两个步骤都设置了专用的LLM提示,称为2-step方法。这时, 规划提示会以第一步中的基线响应为条件,而由规划产生的验证问题则会在第二步中得到回答 ,其中至关重要的是, LLM提示的上下文仅包含问题,而不包含原始基线响应的内容 ,因而可以避免产生二次幻觉。

2.2.3 分解方法

除了上述两种方法,作者还提供了一种更加复杂的方法,即分解方法。 分解方法将完全不以原始基线响应为条件,其可以消除来自基线响应中的任何潜在干扰。 其要求在生成规划和执行规划时全都使用单独的提示并使LLM独立回答所有问题, 这样可以消除答案上下文之间的任何潜在干扰。 虽然这可能会增加计算成本,需要执行更多的LLM推理,因此必须从计划验证制定步骤中获取生成的问题集, 并将它们解析为单独的问题列表,这样就可以对其进行批处理操作,实现并行推理来提高效率。 在对每个验证问题回答完成之后,CoVE需要对这些答案与原始响应的一致性进行检查,这时, 作者引入了一个额外的LLM提示来执行这一操作,这一操作需要同时以基线响应、验证问题和验证答案为条件 ,因而可以得到更加完善,消除幻觉后的回答。

三、实验效果

本文的实验在多种文本生成和回答基准上进行, 例如Wikidata、Wiki-Category lists、MultiSpanQA和长篇传记生成任务等。 其中Wikidata基准需要模型根据列表形式的问题生成实体类的回答。Wiki-Category lists是一种相比Wikidata更加困难的集合生成任务,MultiSpanQA是一项标准的大模型阅读理解基准,其由包含多个独立答案的问题组成,本文的实验使用了闭卷设置。 此外,为了评估CoVE在长文本生成方面的效果,作者使用了传记生成基线Factscore[1],LLM需要根据输入一个实体提示来直接生成其对应的传记。

对于基线LLM,作者选用了开源的Llama 65B[2],上表展示了CoVE在列表回答任务上的实验效果,可以看到, CoVe相比Llama 65B的few-shot基线的精度提高了一倍多(从0.17到0.36)。 此外,从正负分类的结果可以看出,在使用CoVE方法之后,模型生成的幻觉答案数量大幅减少(Neg:2.95到0.68),而非幻觉答案数量受到的影响很小(Pos:0.59到0.38)。

上表展示了CoVE在MultiSpanQA基线上的实验效果, 可以看到,CoVe改善了Llama在普通QA问题上的回答正确率 ,尤其是其F1比Llama few-shot基线提高了 23%。

此外, 在长格式文本生成方面,CoVE实现了相比列表回答和QA任务更加明显的性能增益 ,具体实验结果如上表所示,其在Factscore基线上得到的分数相比Llama few-shot基线增加了28% (55.9到71.4)。

此外,作者还在上图中展示了CoVE在事实改进细分方面的改进对比效果,其中黄色、浅绿色和绿色条柱为本文方法的效果, 可以看到,CoVe主要在罕见事实和更常见事实方面提供了更明显的改正。

四、总结

本文引入了一种称为 验证链(CoVE)的大模型幻觉消除方法,这是一种通过仔细考虑自身的反应并进行自我纠正的方法。 CoVE通过将初始问题的回答进行合理的拆分,并对拆分的问题进行单独的验证,模型就可以相比回答原始查询时更加准确地回答问题。 其次,在回答一组验证问题时,CoVE可以控制模型不受先前答案和上下文的影响,从而有效的减轻幻觉的生成。 总体来说,CoVE是一项简单而有效的方法,本文作者还提到,后续可以为CoVE配备一些工具来使用。例如,在验证执行步骤中使用可以使用在线检索增强技术,这可能会带来进一步的性能提升。

参考

[1] Sewon Min, Kalpesh Krishna, Xinxi Lyu, Mike Lewis, Wen-tau Yih, Pang Wei Koh, Mohit Iyyer, Luke Zettlemoyer, and Hannaneh Hajishirzi. Factscore: Fine-grained atomic evaluation of factual precision in long form text generation. arXiv preprint arXiv:2305.14251, 2023

[2] Hugo Touvron et al. Llama 2: Open foundation and fine-tuned chat models, 2023b.

作者:seven_

Illustration by IconScout From Pixel True

-The End-

扫码观看!

本周上新!

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线500+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

投稿方式

发送邮件到

chenhongyuan@thejiangmen.com

或添加工作人员微信(chemn493)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。

关于我“门”

将门是一家以专注于数智核心科技领域新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角,把文章分享到朋友圈

⤵一键送你进入TechBeat快乐星球

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
炸裂!再添落马高官!82条人命掀翻山西三级官场

炸裂!再添落马高官!82条人命掀翻山西三级官场

新浪财经
2026-07-04 23:43:58
韩红被骂才几天,黑历史被扒,央媒出手锐评,句句直戳打工人心窝

韩红被骂才几天,黑历史被扒,央媒出手锐评,句句直戳打工人心窝

勇敢的人享受生活
2026-07-05 03:34:03
世界杯16强全诞生!欧洲7席南美4席,阿根廷vs埃及,8强预测如下

世界杯16强全诞生!欧洲7席南美4席,阿根廷vs埃及,8强预测如下

小火箭爱体育
2026-07-04 11:32:42
哈梅内伊国葬盛大举行!中俄代表站首排,印度却降格参会

哈梅内伊国葬盛大举行!中俄代表站首排,印度却降格参会

翡翠清泉
2026-07-05 04:24:09
世界杯16强产生!(附对阵图、比赛时间)

世界杯16强产生!(附对阵图、比赛时间)

扬子晚报
2026-07-04 17:09:58
卖香皂的日本花王,凭什么成为半导体隐形玩家?

卖香皂的日本花王,凭什么成为半导体隐形玩家?

正解局
2026-07-03 16:52:54
网红Alix海边派对清凉上阵,礼服险走光

网红Alix海边派对清凉上阵,礼服险走光

赴一场山海啊
2026-07-04 01:02:14
离开黄有龙再嫁富豪,四年连生三娃,43岁患病后近况

离开黄有龙再嫁富豪,四年连生三娃,43岁患病后近况

用冷眼洞悉世界
2026-07-03 22:18:31
中泰空军对抗训练再回首:性能落后太多,歼11在多方面被对方碾压

中泰空军对抗训练再回首:性能落后太多,歼11在多方面被对方碾压

史行途
2026-07-01 22:30:22
温州街头顶级豪车!售价超2000万!太拉风了

温州街头顶级豪车!售价超2000万!太拉风了

瓯越声音
2026-07-05 00:07:45
7月一到,中国新规正式生效,一直蹭中国领空的日本,好日子到头

7月一到,中国新规正式生效,一直蹭中国领空的日本,好日子到头

抱明月而长终指
2026-07-05 04:07:41
世界杯16强格局:欧洲+美洲独占14席,亚洲球队全军覆没

世界杯16强格局:欧洲+美洲独占14席,亚洲球队全军覆没

橙汁的味道123
2026-07-04 11:32:26
一场同学聚会让我发现:有钱的人不爱炫耀,没钱的人特别喜欢显摆

一场同学聚会让我发现:有钱的人不爱炫耀,没钱的人特别喜欢显摆

小马达情感故事
2026-07-04 17:32:23
速度很快,空警-3000战略预警机二号机高清图流出,断崖式领先世界

速度很快,空警-3000战略预警机二号机高清图流出,断崖式领先世界

爱迷彩的老虎
2026-07-04 21:12:54
古代通房丫鬟到底有多惨?陪老爷不算,还被用来干一件“恶心”事

古代通房丫鬟到底有多惨?陪老爷不算,还被用来干一件“恶心”事

掠影后有感
2026-05-17 11:00:03
花旗砍币价预测:比特币8.2万、以太币2240美元,三张底牌全翻空

花旗砍币价预测:比特币8.2万、以太币2240美元,三张底牌全翻空

爬虫饲养员
2026-07-04 03:50:56
辽宁铁人3-1重庆铜梁龙,赛后评分:辽宁铁人47号排第一

辽宁铁人3-1重庆铜梁龙,赛后评分:辽宁铁人47号排第一

俯身冲顶
2026-07-04 21:00:04
俄军作秀抵御乌军登陆? 2个机场7架战机被摧毁

俄军作秀抵御乌军登陆? 2个机场7架战机被摧毁

巴雷文化
2026-07-05 05:04:16
成都一女子不洗手抱孙子,儿媳怒斥不卫生,儿子一拳打面中,母亲扬言要儿子坐牢,儿子却说:她活该!6年后现状曝光...

成都一女子不洗手抱孙子,儿媳怒斥不卫生,儿子一拳打面中,母亲扬言要儿子坐牢,儿子却说:她活该!6年后现状曝光...

背包旅行
2026-07-02 14:33:11
陕西历史博物馆更新空调设备,有游客称效果“太给力”,已从“热晕”到“冻哭”,需穿外套避寒,馆方工作人员回应

陕西历史博物馆更新空调设备,有游客称效果“太给力”,已从“热晕”到“冻哭”,需穿外套避寒,馆方工作人员回应

极目新闻
2026-07-04 17:29:11
2026-07-05 07:07:00
将门创投 incentive-icons
将门创投
加速及投资技术驱动型初创企业
2423文章数 596关注度
往期回顾 全部

科技要闻

韬定律论文V2版,充工程细节和实测数据

头条要闻

老人被一次拔12颗牙种10颗:能刷的钱都刷走 只剩30块

头条要闻

老人被一次拔12颗牙种10颗:能刷的钱都刷走 只剩30块

体育要闻

揭法国锋线最大优势 有人比姆巴佩还快?

娱乐要闻

白鹿打戏抠图惹非议 连累丞磊遭扒皮

财经要闻

韩国股市杠杆失控:450亿美元资金狂飙

汽车要闻

方程豹钛9内饰曝光 用上了长联屏设计/下半年上市

态度原创

家居
房产
健康
公开课
军事航空

家居要闻

传奇筑 日常诗

房产要闻

总裁空缺17个月、现金缺口超1000亿:金融局“局外人”入局万科

听说少吃点能抗衰老?专家讲解!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

普京宣布俄军“完全解放”卢甘斯克

无障碍浏览 进入关怀版