网易首页 > 网易号 > 正文 申请入驻

ACL 2024 Oral | 大模型也会被忽悠?揭秘AI的信念之旅

0
分享至

地球是平的吗?

当然不是。自古希腊数学家毕达哥拉斯首次提出地圆说以来,现代科学技术已经证明了地球是圆形这一事实。

但是,你有没有想过,如果 AI 被误导性信息 “忽悠” 了,会发生什么?

来自清华、上海交大、斯坦福和南洋理工的研究人员在最新的论文中深入探索 LLMs 在虚假信息干扰情况下的表现,他们发现大语言模型在误导信息反复劝说下,非常自信地做出「地球是平的」这一判断。

论文标题: The Earth is Flat because...: Investigating LLMs' Belief towards Misinformation via Persuasive Conversation 论文链接: https://arxiv.org/pdf/2312.09085 项目主页: https://llms-believe-the-earth-is-flat.github.io/ GitHub 源代码: https://github.com/LLMs-believe-the-earth-is-flat/llms-believe-the-earth-is-flat

生成式人工智能技术的快速发展,为生成虚假信息提供了便利。这些技术不仅能够创建逼真的文本、图像、音频和视频内容,还能够在社交网络上自动发布和传播这些内容。虚假信息的泛滥给社会带来了诸多挑战,但目前对这类信息的确切影响仍不十分清楚。然而,可以预见的是,随着技术的发展,虚假信息的生成和传播将会变得更加容易和普遍。

另一方面,大语言模型的上下文学习能力使其受到误导性信息的影响。这种误导性信息可能会在模型的部署过程中在上下文中被接受,并在模型生成的输出中反映出来,导致其产生不准确或具有偏见的内容。因此,研究者们正在努力探索如何提高大模型对虚假信息的识别能力和抵抗能力,这是提升大模型安全和鲁棒性的重要内容之一。

本篇研究就探索了这种有误信息对于大语言模型知识信念的影响,研究论文已经被 ACL 2024 接收,并选做大会报告(Oral)。

一、实验:大模型的 “信念” 测试

研究者们首先构建了一个名为 Farm(Fact to Misinform Dataset)的数据集,包含 1500 个事实性问题及其相关的误导性信息。他们在大语言模型的帮助下系统性地构造了更具有说服力的有误信息:首先,他们对原始正确的事实性 QA 进行语义取反或者构造错误答案,随后利用 “越狱” 后的大模型协助生成更具有说服力的长文本有误信息。

利用这些数据,便可以测试大语言模型在多轮对话中面对虚假信息时的反应。测试过程分为三个阶段:初始信念检验、多轮对话中劝说误导、结果信念检验。模型的信念检验通过模型在闭卷 QA 中答案的信心分数反应。通过这种方式,研究者们能够观察到 LLMs 在多轮对话中信念的变化。

多轮测试框架
1.1 主要结果

在劝说性交流阶段,研究者们使用了多种策略来误导 LLMs 改变其信念。这些策略包括晓之以理的劝说(LO)、树立权威的劝说(CR)和动之以情的劝说(EM)。结果显示,即使是最先进的模型,如 GPT-4,也有高达 20.7% 的可能性被虚假信息所影响。基于对 ChatGPT、GPT-4、Llama-2-7B-chat、Vicuna-v1.5-7B、Vicuna-v1.5-13B 五种大模型平均准确度(Average Accuracy Rate, ACC)和被误导率(Misinformed Rate, MR)的实验,研究者们有五点发现:

  • 绝大多数大模型都易被虚假信息欺骗:从最先进的 GPT-4 (注:本研究的完成时间是 2023 年 9 月,当时最先进的模型是 GPT-4)到最差的模型,所有模型在经过多轮测试之后,误导率从 20%-80% 不等。

  • 越先进的大模型抵抗虚假信息能力越强:实验表明,抵抗能力最强的是 GPT-4 模型,其能以 80% 坚持自己的事实信念。这给了我们一些宽慰:上下文理解能力越强的模型,并非更容易受到有误信息的干扰!

  • 多次重复虚假信息比单次输出虚假信息更能骗倒大模型:通过多轮引入的虚假信息,其作用要胜过单此的引入,这很符合我们对安全性对齐的常识 —— 有害内容越多,模型越容易被其影响。

  • 运用修辞的劝说性虚假信息更容易骗倒大模型:使用更复杂,更具有说服力的修辞可以增加模型改变看法的概率。这点就和人一样,越 “真实” 的假信息,你越容易相信

  • 逻辑性说服比其它说服方式更有效:模型对逻辑性强的信息特别敏感,无论是真实信息还是虚假信息,只要逻辑连贯一致,就更容易影响模型的判断。这表明,模型在处理信息时,可能过分依赖于表面的逻辑结构,而忽略了对信息来源和内容真实性的深入验证。

ChatGPT 和 GPT4 在不同劝说策略下的正确率(虚线)和误导成功率(实线)
1.2 大模型面对虚假信息的五种反应

在面对虚假信息时,AI 表现出了五种不同的行为:拒绝(Rejection)、奉承(sycophancy)、不确定(Uncertainty)、接受(Acceptance)和自我不一致(Self-Inconsisitancy)。这些行为揭示了 AI 在处理错误信息时的复杂性。例如,拒绝行为表明 AI 坚持正确的答案,不受错误信息影响;而奉承行为则表明 AI 在对话中表面上接受错误信息,但内心仍坚持正确答案。

模型的信念和对应面对误信息的行为:拒绝,奉承和接纳

研究还发现,在经过一轮虚假信息交互后,大语言模型的信心程度往往会降低。然而,对于一些问题,重复虚假信息却让大模型更加确信自己的答案,这种现象被称为 “逆火效应(Backfire Effect)”。

二、如何提升抗虚假信息干扰能力?

研究组发现,由于 RLHF(Reinforcement Learning with Human Feedback)算法,大模型在训练中会倾向于接受用户的输入,即认为外界的 context 总是友善且正确的。而且当大语言模型有足够信息支撑观点时,会对正确的回答更有信心。

为了帮助大模型提升抗虚假信息干扰能力,研究者们提出了一种轻量级解决方案:在检测到虚假信息后,使用 safety system prompt 对大模型进行提醒,并在回答之前从自己的参数化知识中检索相关信息。这种方法在一定程度上减少了虚假信息对大模型的影响。

加入 safety system prompt 后,模型抗干扰能力显著提升
三、OpenAI 的看法

有趣的是,OpenAI 在 2024 年 5 月发布了最新的 AI 模型行为准则,其中特别提到了 “认知冲突” 的处理。在此部分的示例中,他们使用了 “地球是平的” 这一例子来说明模型在面对与已知事实相冲突的信息时应如何反应,与本次研究团队的标题不谋而合,也更加突显了大语言模型在处理认知冲突时的行为表现的重要性。

https://cdn.openai.com/spec/model-spec-2024-05-08.html
四、研究启发

随着模型的智能化,大模型逐渐展现出了一些人类的特性,但它们的本质仍然是概率模型。这些模式很有可能仍然是从训练语料中的人类行为学习而来,即是一种 “模仿游戏”。

以上的研究探索了针对简单事实问题,当 LLM 的内部认知和外部信息冲突的时候,LLM 当作何选择,是盲从还是坚持自己的意见?而人类在这种认知冲突的过程中所展现的 “理愈辩愈明”、“思想碰撞出火花” 等能力还是目前的 LLM 所不具备的。

未来的研究可以进一步从模型的内在机理和训练数据中对大模型的行为进行溯源式的分析,提高 AI 的可解释性,并进一步提升跨学科研究,探索大模型的更多潜力。

作者:许融武 来源:公众号【机器之心】

llustration From IconScout By IconScout Store

-The End-

本周上新!

扫码观看!

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区(

www.techbeat.net
) 。 社区上线500+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

投稿方式

发送邮件到

melodybai@thejiangmen.com

或添加工作人员微信(yellowsubbj)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。

关于我“门”

将门是一家以专注于数智核心科技领域新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角,把文章分享到朋友圈

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
美国退出俄乌调停,欧乌结盟继续猛击俄罗斯

美国退出俄乌调停,欧乌结盟继续猛击俄罗斯

高博新视野
2026-05-25 07:30:16
理想回应L9 Livis取消方向盘交互屏:用户使用率极低

理想回应L9 Livis取消方向盘交互屏:用户使用率极低

智车情报局
2026-05-25 12:32:39
大爷每天盯着看惹居民不满,但又不愿拉上窗帘

大爷每天盯着看惹居民不满,但又不愿拉上窗帘

映射生活的身影
2026-05-24 11:42:36
英超|你永远不会独行!收官战迎来告别潮,传奇落幕,青春翻篇

英超|你永远不会独行!收官战迎来告别潮,传奇落幕,青春翻篇

齐鲁壹点
2026-05-25 11:58:18
12岁女孩开269公里高速回外婆家,交警发现后问:你怎么会开车?女孩一句话全场泪目...

12岁女孩开269公里高速回外婆家,交警发现后问:你怎么会开车?女孩一句话全场泪目...

乔话
2026-05-24 23:37:21
华为昇腾向开发者弯腰了

华为昇腾向开发者弯腰了

智远同学
2026-05-23 21:00:59
“夏天吃3草,不往医院跑”,原来是这3样,鲜嫩营养,别错过了

“夏天吃3草,不往医院跑”,原来是这3样,鲜嫩营养,别错过了

小茉莉美食记
2026-05-25 11:35:25
日经225指数突破64000点,再创历史新高

日经225指数突破64000点,再创历史新高

澎湃新闻
2026-05-25 08:24:15
宋庆龄向毛主席求情,希望宽大处理陈璧君,陈:我情愿监狱度余生

宋庆龄向毛主席求情,希望宽大处理陈璧君,陈:我情愿监狱度余生

史之铭
2026-05-10 19:24:25
44岁前国脚退役后突发颈动脉堵死险丧命,站都站不稳,努力康复

44岁前国脚退役后突发颈动脉堵死险丧命,站都站不稳,努力康复

米修体育
2026-05-25 01:12:35
52岁朴树近况:无儿无女,没钱没房,成了要钱不要命的“疯子”

52岁朴树近况:无儿无女,没钱没房,成了要钱不要命的“疯子”

流云随风去远方
2026-04-14 12:22:59
抗美援朝志愿军换装苏式武器,战力大增,美方因此质疑我方和谈态度

抗美援朝志愿军换装苏式武器,战力大增,美方因此质疑我方和谈态度

磊子讲史
2026-05-25 11:43:45
华为半导体领域重大突破发布,概念股大涨

华为半导体领域重大突破发布,概念股大涨

第一财经资讯
2026-05-25 10:19:42
从96公斤到婚纱女神!崔真实女儿逆袭人生,嫁大11岁圈外男友

从96公斤到婚纱女神!崔真实女儿逆袭人生,嫁大11岁圈外男友

橙星文娱
2026-05-25 12:16:13
郭艾伦小丁颁奖!清华附中16分史诗逆转回浦中学 时隔5年夺第15冠

郭艾伦小丁颁奖!清华附中16分史诗逆转回浦中学 时隔5年夺第15冠

醉卧浮生
2026-05-24 22:10:43
为什么说我国的挖掘机,用的都是日本的发动机?差距到底有多大?

为什么说我国的挖掘机,用的都是日本的发动机?差距到底有多大?

明天后天大后天
2026-05-24 19:51:37
“别绿茶了,你就是个中年妇女!”女家长晒心机自拍,被戳破打脸

“别绿茶了,你就是个中年妇女!”女家长晒心机自拍,被戳破打脸

妍妍教育日记
2026-05-22 20:54:22
后台最硬女神探,遇到破不了的案,直接冤枉路人死刑!

后台最硬女神探,遇到破不了的案,直接冤枉路人死刑!

莫地方
2026-05-16 01:40:03
陪玩陪睡根本不够!认干爹、舔手指,背地里的阴暗面完全藏不住了

陪玩陪睡根本不够!认干爹、舔手指,背地里的阴暗面完全藏不住了

杰丝聊古今
2026-05-03 13:35:27
跟队:在热刺确认保级后,罗伯逊即将加盟热刺

跟队:在热刺确认保级后,罗伯逊即将加盟热刺

懂球帝
2026-05-25 11:38:15
2026-05-25 13:15:00
将门创投 incentive-icons
将门创投
加速及投资技术驱动型初创企业
2387文章数 596关注度
往期回顾 全部

科技要闻

华为发表半导体演进新定律

头条要闻

男子收到16年前的停车欠费通知 比他买车的时间还要早

头条要闻

男子收到16年前的停车欠费通知 比他买车的时间还要早

体育要闻

如果不好好守门,他可能早就继承家业了

娱乐要闻

洪涛回应歌手淘汰庾澄庆:难以理喻

财经要闻

退市!33年“A股不死鸟”落幕

汽车要闻

国民家轿再上新 帝豪向上系列限时5.59万起

态度原创

本地
旅游
时尚
公开课
军事航空

本地新闻

用云锦的方式,打开江苏南京

旅游要闻

黄河壶口瀑布:“金瀑飞流”入画来

伊姐周日热推:电视剧《盛唐奇案》;电视剧《我的王室死对头》......

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

俄军出动“榛树”导弹袭击乌克兰

无障碍浏览 进入关怀版