网易首页 > 网易号 > 正文 申请入驻

AI 胡说八道怎么办?牛津大学开发了一种“测谎”方法

0
分享至

胡说八道不可怕,一本正经的胡说八道才可怕,你因为一本正经而信了ta的胡说八道,更可怕……这就是当下我们(捏着鼻子)使用 AI 时需要面对的现状。

如何避免 AI 生成虚假的事实内容,对使用者产生误导呢?各个大模型平台一直在研究和尝试,而要想“避免”问题,首先得“识别”问题。6 月 19 日,牛津大学一个研究团队发表在《自然》杂志上的一项新研究,提出了一种颇有潜力的给AI“测谎”的方法,下面咱们就详细聊聊。

大模型的胡说八道和风险

“幻觉”(Hallucinations)是大语言模型(例如 ChatGPT、Gemini、或文心一言)面临的一个关键问题,也是网络上常见的用户体验吐槽类型之一,这个术语可以粗略地理解为 AI 一本正经的胡说八道。

比如,你问 ChatGPT:恐龙扛狼是什么意思?

它会一本正经地告诉你——这象征着旧势力和新力量的对抗,是弱小但机智灵活的挑战者和强大却缺乏灵活的对手之间的博弈。

答案非常洗涤灵魂,上升到哲理和价值观高度,但是,它在胡说八道。

这只是大语言模型常见的“幻觉”类型之一,其他类型还包括:

1

错误的历史事实

“谁是美国的第一位总统?” ChatGPT 回答:“托马斯·杰斐逊。”

2

错误的科学信息

“水的沸点是多少?” ChatGPT 回答:“水在标准大气压下的沸点是 120 摄氏度。”

3

编造引用,AI 缝合怪

“爱因斯坦在相对论中说了什么?” ChatGPT 回答:“爱因斯坦曾在《相对论与现实》一书中说过,‘时间是一种幻觉’。”虽然爱因斯坦的确讨论过时间的相对性,但他并没有在所谓的《相对论与现实》一书中发表这句话。实际上,这本书可能根本不存在。这是模型编造的引用。

4

误导性的健康、法务、财务建议

你问:“感冒了应该吃什么药?” ChatGPT 回答:“感冒了应该吃抗生素。”

除了上述问题,相信大家在使用 AI 的过程中也会碰到其他胡说八道的情况。尽管各个大模型都在积极处理这类问题,上面举的例子很多可能也已经得到了修复,但这类问题一直难以找到“根治”或“清除”的办法,在检验判断上也往往需要人工反馈或数据集标注,这会带来不低的成本。

这让我们使用 AI 的体验大打折扣——谁敢毫无保留地信任一个满嘴跑火车的助手呢?何况有些问题事关健康和安全,弄错了可是要出大事的。

有没有什么办法,能更通用化地“计算”出 AI 到底有没有瞎说呢?

“语义熵”如何帮助大模型检测谎言?

日前(6 月 19 日),牛津大学团队在《自然》(Nature)杂志发表了一篇论文,提出了一种新的分析和计算方法,为解决大语言模型“幻觉”问题,打开了新思路。

图源:《自然》(Nature)官网,中文翻译来自浏览器插件“沉浸式翻译”

团队提出了一种基于统计学的熵估计方法,称为“语义熵”,来检测大语言模型中的“编造”(confabulation),即大模型饱受诟病的“胡言乱语症”。作者在多个数据集上测试了语义熵方法,结果显示语义熵方法在检测编造方面显著优于其他基准方法。

那么“语义熵”究竟是什么呢?

抛开冗长的专业解释,我们可以将语义熵简单理解为概率统计的一种指标,用来测量一段答案中的信息是否一致。如果熵值较低,即大家都给出类似的答案,说明信息可信。但如果熵值较高,答案各不相同,说明信息可能有问题。

这有点类似于,如果一个人在撒谎,他可能没办法每次把谎言的细节编造得一模一样。一个谎言往往需要无数个谎言来帮它扯圆。从信息论的角度来看,可能会引入更多的不确定性和随机性。说谎者需要引入额外的信息或细节来支持其不真实的叙述,这可能会增加信息的不确定性或熵值,进而被算法检测出来。

比如,当你问 AI“世界上最高的山是哪座?”

大模型可能会给出几个答案:“珠穆朗玛峰”“乞力马扎罗山”“安第斯山脉”。

通过计算这些答案的语义熵,发现“珠穆朗玛峰”这个答案出现频率最高,其他答案则很少甚至没有出现。低语义熵值表明“珠穆朗玛峰”是可信的答案。

语义熵,既有优势,也有弱点

语义熵检测方法的优势在于不需要任何先验知识,无需额外的监督或强化学习。通俗地讲,使用这种方法时,并不需要上知天文下知地理,只需要遇事不决看看大家都怎么说。

而目前常用的诸如标注数据、对抗性训练等方法,“泛化”效果(即举一反三的能力),都不如通过语义熵计算。即便是大模型从未遇到过的新语义场景,也能适用语义熵方法。

当然,语义熵虽然是一种相对有效的办法,但不是万灵药,它自己也有一定局限性:

1

处理模糊和复杂问题的能力有限

语义熵在处理非常模糊或复杂的问题时可能不够有效。

在面对多种可能正确答案的问题时,比如“最好的编程语言是什么?”,语义熵可能无法明确区分哪一个答案更可靠,因为多个答案都可能是合理的。

(谁说是 Python?我 C++第一个不服!!)

2

忽略上下文和常识

语义熵主要基于统计和概率计算,可能忽略了上下文和常识的影响。在一些需要综合上下文和常识来判断的问题中,语义熵可能无法提供准确的可靠性评估。比如经常谈恋爱的朋友可能有体会,情侣间一句话:“我没事儿,你忙吧。”

你觉得 TA 是真没事儿,还是有很大事儿?

在这种情况下,得结合上下文场景、人物状态等信息判断,不同的上下文会导致不同的理解。语义熵只能基于词语的统计概率进行评估,可能会给出错误的判断。

再比如常识性的判断,即物理世界的客观规律,假设我们问一个问题:“太阳从哪边升起?”

正确答案是“东边”。然而,如果我们有以下两个候选答案:

1、太阳从东边升起。

2、太阳从西边升起。

(这可能由于模型训练数据的偏差和生成过程的随机性导致)

即使语义熵检测到两个答案的概率分布接近,但常识告诉我们答案 1 才是正确的。语义熵在这种情况下可能无法提供足够的信息来判断答案的可靠性。

3

如果训练数据被无意或刻意“污染”,语义熵也没办法很好识别

如果用错误的数据,给大模型施加了“思想钢印”,模型对其生成的错误陈述非常“自信”(即错误陈述在模型的输出概率分布中占主导地位),那么这些陈述的熵值可能并不会很高。

最后总结一下,从大模型的内容生成机制上看,“幻觉”问题没办法 100%避免。当我们在使用AI生成的内容时,重要的数理推理、历史事件或科学结论、法律和健康知识等方面最好进行人工核查。

不过,换个角度,“幻觉”也是大语言模型的创造力体现,我们也许应该善用大模型的“幻觉”能力。毕竟幻觉不一定是 bug(故障),而是大模型的 feature(特点)。

如果需要检索事实,我们已经有了搜索引擎工具。但如果需要有人帮我们编辑一个“恐龙扛狼”的无厘头剧本,那么,大语言模型显然是个更好的助手。

比如笔者费尽心思想画一幅恐龙扛狼图,但某 AI 油盐不进,画出了一幅恐龙把狼吞了(疑似)的图,难怪理解不了恐龙扛狼的真意啊……

转载自:科普中国

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
《主角》大结局:黄正大长寿,楚嘉禾一事无成,廖耀辉太意外!

《主角》大结局:黄正大长寿,楚嘉禾一事无成,廖耀辉太意外!

天马幸福的人生
2026-05-25 01:03:29
重庆:17人失联,1人死亡

重庆:17人失联,1人死亡

南方都市报
2026-05-24 11:26:22
985博士朱某明知对方间谍,仍接受其布置的情报搜集任务,偷拍大量涉及航空航天和军事技术领域的文件,获利59.64万元,被判刑15年

985博士朱某明知对方间谍,仍接受其布置的情报搜集任务,偷拍大量涉及航空航天和军事技术领域的文件,获利59.64万元,被判刑15年

扬子晚报
2026-05-25 07:43:23
直播翻车前5分钟,何炅说了4次“别聊不在场的人”。

直播翻车前5分钟,何炅说了4次“别聊不在场的人”。

小娱乐悠悠
2026-05-24 08:42:31
意甲最新积分战报:科莫轰入4球,米兰1-2卡利亚里,尤文无缘欧冠

意甲最新积分战报:科莫轰入4球,米兰1-2卡利亚里,尤文无缘欧冠

足球狗说
2026-05-25 05:48:30
事实证明,“消失”多年的清华才女武亦姝,证实了当年董卿没说错

事实证明,“消失”多年的清华才女武亦姝,证实了当年董卿没说错

绚丽的画卷
2026-05-25 04:27:13
记者:若詹姆斯离开,湖人已权衡东契奇欧文再度搭档的利弊

记者:若詹姆斯离开,湖人已权衡东契奇欧文再度搭档的利弊

懂球帝
2026-05-25 07:24:42
阿根廷跟队:梅西因腿筋感到紧绷要求离场,他并没有肌肉拉伤

阿根廷跟队:梅西因腿筋感到紧绷要求离场,他并没有肌肉拉伤

懂球帝
2026-05-25 10:34:08
耻辱收官!切尔西惨败彻底无缘欧战!头号罪人葬送全队

耻辱收官!切尔西惨败彻底无缘欧战!头号罪人葬送全队

奶盖熊本熊
2026-05-25 01:37:50
为何保险卖不动了?保险卖不动的原因是当年的骗局到现在已被证实

为何保险卖不动了?保险卖不动的原因是当年的骗局到现在已被证实

风信子的花
2026-05-24 09:28:19
方媛从楼梯摔下来,首度在节目中崩溃哭了,她在婚姻中是有委屈的

方媛从楼梯摔下来,首度在节目中崩溃哭了,她在婚姻中是有委屈的

椰黄娱乐
2026-05-23 13:02:42
接触的人越多越发现:低层次的人争对错,中层次的人争利益,高层次的人早已看透了处世本质,他们只做这两件事

接触的人越多越发现:低层次的人争对错,中层次的人争利益,高层次的人早已看透了处世本质,他们只做这两件事

心理观察局
2026-05-24 06:46:29
英超本赛季各队奖金明细出炉,阿森纳豪揽5400万,狼队只有270万

英超本赛季各队奖金明细出炉,阿森纳豪揽5400万,狼队只有270万

夜白侃球
2026-05-25 09:27:45
萧旭岑不想忍了!五点声明条理清晰,马英九金溥聪存在关键问题

萧旭岑不想忍了!五点声明条理清晰,马英九金溥聪存在关键问题

林子说事
2026-05-25 08:26:42
“加害者”再次被转移,“毒杨梅”荡出一朵新波浪

“加害者”再次被转移,“毒杨梅”荡出一朵新波浪

呦呦鹿鸣
2026-05-24 16:51:26
你们都是什么时候对男女之事开窍的?网友:果然还是拦不住有心人

你们都是什么时候对男女之事开窍的?网友:果然还是拦不住有心人

夜深爱杂谈
2026-02-21 21:37:02
10年麻将馆老板囗述:凡是爱打麻将的,没有一个人日子是过得好的

10年麻将馆老板囗述:凡是爱打麻将的,没有一个人日子是过得好的

小噎论事
2026-04-24 17:15:21
全国通缉犯藏上海9年,成身价3亿大佬,被捕时:放了我,给5000万

全国通缉犯藏上海9年,成身价3亿大佬,被捕时:放了我,给5000万

鉴史录
2026-05-23 12:44:00
汪小菲陪玥儿上课,晚上一家三口吃大餐,家中疑放着他与大S的画

汪小菲陪玥儿上课,晚上一家三口吃大餐,家中疑放着他与大S的画

手工制作阿歼
2026-05-25 01:30:09
严幼韵98岁确诊大肠癌,医生劝她手术,她叹了口气:还是安乐死吧

严幼韵98岁确诊大肠癌,医生劝她手术,她叹了口气:还是安乐死吧

兴趣知识
2026-05-20 00:27:29
2026-05-25 10:55:00
蝌蚪五线谱 incentive-icons
蝌蚪五线谱
权威、有趣、贴近生活
3796文章数 150056关注度
往期回顾 全部

科技要闻

华为发表半导体演进新定律

头条要闻

重庆农家乐3000多斤特色鱼几乎全被洪水冲走 老板发声

头条要闻

重庆农家乐3000多斤特色鱼几乎全被洪水冲走 老板发声

体育要闻

如果不好好守门,他可能早就继承家业了

娱乐要闻

洪涛回应歌手淘汰庾澄庆:难以理喻

财经要闻

退市!33年“A股不死鸟”落幕

汽车要闻

国民家轿再上新 帝豪向上系列限时5.59万起

态度原创

亲子
家居
时尚
房产
公开课

亲子要闻

福州儿童/青少年配眼镜深度推荐:拒绝“模板化”,科学护航孩子的“远视储备”

家居要闻

低调传承 温润沉静

伊姐周日热推:电视剧《盛唐奇案》;电视剧《我的王室死对头》......

房产要闻

疯狂周末,海口楼市突然爆了!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版