网易首页 > 网易号 > 正文 申请入驻

DeepMind为人工智能聊天机器人开发了"事实核查器"以治愈幻觉

0
分享至

人工智能聊天机器人最受人诟病的行为之一就是所谓的幻觉,即人工智能在令人信服地回答问题的同时,却向你提供了与事实不符的信息。简单地说,就是人工智能为了满足用户的需求而胡编乱造。

在使用生成式人工智能创建图片或视频的工具中,这就不是一个问题了。最后,最近才从 OpenAI 离职的知名专家安德烈-卡尔帕西(Andrej Karpathy)竟然说,产生幻觉的现象是生成式人工智能的底层技术--大型语言模型(LLM)的最大特点。

但是,在以文本为重点、基于 LLM 的聊天机器人中,用户希望所提供的信息与事实相符,因此幻觉是绝对不允许出现的。

防止人工智能产生幻觉是一项技术挑战,而且并非易事。不过,据Marktechpost报道,Google DeepMind 和斯坦福大学似乎找到了某种变通办法。

研究人员提出了一种基于 LLM 的系统--"搜索增强事实性评估器"(Search-Augmented Factuality Evaluator,简称 SAFE),它可以对人工智能聊天机器人生成的长格式回复进行事实检查。他们的研究成果连同所有实验代码和数据集已作为预印本发表在 arXiv 上。

系统通过四个步骤对答案进行分析、处理和评估,以验证其准确性和真实性。首先,SAFE 将答案分割成单个事实,对其进行修改,并与Google搜索结果进行比较。系统还会检查各个事实与原始问题的相关性。

为了评估 SAFE 的性能,研究人员创建了一个包含约 16,000 个事实的数据集 LongFact。然后,他们在四个不同系列(Claude、Gemini、GPT、PaLM-2)的 13 个 LLM 中测试了该系统。在 72% 的情况下,SAFE 提供了与人类注释者相同的结果。在存在分歧的情况下,SAFE 的正确率为 76%。

此外,研究人员还声称,使用 SAFE 的成本比人工注释员或事实检查员低 20 倍,因此提供了一个经济可行的解决方案,而且可以大规模应用。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
糖尿病的人最后是咋死的?医生:后期大多人会死于 3 个并发症

糖尿病的人最后是咋死的?医生:后期大多人会死于 3 个并发症

垚垚分享健康
2026-07-03 08:57:21
特朗普参加开幕活动对剪彩剪刀爱不释手,一度想揣兜里,最后选择拿在手上直接带走

特朗普参加开幕活动对剪彩剪刀爱不释手,一度想揣兜里,最后选择拿在手上直接带走

大象新闻
2026-07-02 19:02:13
李春平百亿好莱坞遗产传闻败露,卷入零二年承德特大文物盗窃大案

李春平百亿好莱坞遗产传闻败露,卷入零二年承德特大文物盗窃大案

磊子讲史
2026-06-30 11:54:08
中国田径队亚运名单 邓信锐莫家蝶刘景扬落选吴艳妮林雨薇扛旗出征

中国田径队亚运名单 邓信锐莫家蝶刘景扬落选吴艳妮林雨薇扛旗出征

劲爆体坛
2026-07-03 12:38:09
高盛展望下半年:科技巨头继续失宠,半导体才是“王者”!

高盛展望下半年:科技巨头继续失宠,半导体才是“王者”!

科创板日报
2026-07-03 11:00:17
4年6690万美金!状元郎迪班萨正式签约!NBA新纪录诞生

4年6690万美金!状元郎迪班萨正式签约!NBA新纪录诞生

世界体育圈
2026-07-03 16:04:48
协和林博士一席话点醒无数人:晚年尊严,全靠一身筋骨撑住

协和林博士一席话点醒无数人:晚年尊严,全靠一身筋骨撑住

青苹果sht
2026-06-30 05:50:59
鲍鹏山:如果中国真的足够强大!我们没必要脆弱到那么害怕批评!

鲍鹏山:如果中国真的足够强大!我们没必要脆弱到那么害怕批评!

用冷眼洞悉世界
2026-06-24 00:44:14
“时间旅行者”现身 !美国男子自称穿越到2118年,还带回了照片

“时间旅行者”现身 !美国男子自称穿越到2118年,还带回了照片

译言
2026-07-02 06:53:57
非必要不做CT?医生强调:只要做过CT,患者一定多加关注这4点!

非必要不做CT?医生强调:只要做过CT,患者一定多加关注这4点!

叙说医疗健康
2026-06-16 08:00:21
世界杯场场爆满,数万票价不减热度,美国经济真的不行了吗?

世界杯场场爆满,数万票价不减热度,美国经济真的不行了吗?

青松解局
2026-07-02 15:16:40
菲防长掀桌,菲美4次海上行动,南海争端升级,解放军反包围来了

菲防长掀桌,菲美4次海上行动,南海争端升级,解放军反包围来了

南风不及你温柔
2026-07-03 16:37:13
德天空:纳格尔斯曼辞去德国国家队主帅一职

德天空:纳格尔斯曼辞去德国国家队主帅一职

懂球帝
2026-07-03 13:30:47
北京大妈公交车上打晕患癌姑娘,一巴掌断送退休后的美好幸福生活

北京大妈公交车上打晕患癌姑娘,一巴掌断送退休后的美好幸福生活

嘉琪Feel
2025-07-09 23:05:01
60岁后存款别只写自己名字了!改个方式,自己安心子女不麻烦

60岁后存款别只写自己名字了!改个方式,自己安心子女不麻烦

王二哥老搞笑
2026-07-01 14:00:43
3-0!就在刚刚,中国女排提前出线,大胜对手43分,前国家队队员之女表现欠佳

3-0!就在刚刚,中国女排提前出线,大胜对手43分,前国家队队员之女表现欠佳

夕落秋山
2026-07-03 07:31:33
洛夫伦:最后时刻丢球不可原谅,对方一人面对三个大高个破门

洛夫伦:最后时刻丢球不可原谅,对方一人面对三个大高个破门

云隐南山
2026-07-03 16:53:43
收评:沪指涨0.37% 人形机器人概念股表现强势

收评:沪指涨0.37% 人形机器人概念股表现强势

证券时报
2026-07-03 15:25:50
伊朗为已故最高领袖哈梅内伊举行遗体告别仪式,伊朗各界人士、宗教领袖以及多国官员出席,伊朗总统发文悼念:全体人民深感悲痛

伊朗为已故最高领袖哈梅内伊举行遗体告别仪式,伊朗各界人士、宗教领袖以及多国官员出席,伊朗总统发文悼念:全体人民深感悲痛

政知新媒体
2026-07-03 13:50:18
豪掷2.6亿,佩林卡操作还没结束,腾出7000万空间,追求库明加!

豪掷2.6亿,佩林卡操作还没结束,腾出7000万空间,追求库明加!

体育大朋说
2026-07-03 10:30:20
2026-07-03 17:39:00
cnBeta.COM incentive-icons
cnBeta.COM
提供IT行业即时资讯
69016文章数 70223关注度
往期回顾 全部

科技要闻

万亿富豪马斯克 舍不得特斯拉员工敞开用AI

头条要闻

中国船员在被韩海警扣押期间死亡 船友曾6次提醒救人

头条要闻

中国船员在被韩海警扣押期间死亡 船友曾6次提醒救人

体育要闻

C罗穿已故队友若塔球衣谢场 眼中含泪

娱乐要闻

海来阿木孕期出轨指控掀起全网热议

财经要闻

AI“鬼故事”不断,市场开始重估?

汽车要闻

方程豹钛9内饰曝光 用上了长联屏设计/下半年上市

态度原创

游戏
家居
时尚
旅游
艺术

寂静岭新作融合经典恐怖游戏设计!压迫感更进一步

家居要闻

传奇筑 日常诗

夏天的裙子流行“剪一刀”,谁穿谁美!

旅游要闻

2026安吉文旅招商推介走进上海,长三角亲水度假新路线新鲜发布

艺术要闻

当代画家 张奇人物油画作品选

无障碍浏览 进入关怀版