网易首页 > 网易号 > 正文 申请入驻

DeepMind终结大模型幻觉?标注事实比人类靠谱、还便宜20倍,开源

0
分享至

机器之心报道

编辑:杜伟

DeepMind 这篇论文一出,人类标注者的饭碗也要被砸了吗?

大模型的幻觉终于要终结了?

今日,社媒平台 reddit 上的一则帖子引起网友热议。帖子讨论的是谷歌 DeepMind 昨日提交的一篇论文《Long-form factuality in large language models》(大语言模型的长篇事实性),文中提出的方法和结果让人得出大胆的结论:对于负担得起的人来说,大语言模型幻觉不再是问题了。



我们知道,大语言模型在响应开放式主题的 fact-seeking(事实寻求)提示时,通常会生成包含事实错误的内容。DeepMind 针对这一现象进行了一些探索性研究。

首先,为了对一个模型在开放域的长篇事实性进行基准测试,研究者使用 GPT-4 生成 LongFact,它是一个包含 38 个主题、数千个问题的提示集。然后他们提出使用搜索增强事实评估器(Search-Augmented Factuality Evaluator, SAFE)来将 LLM 智能体用作长篇事实性的自动评估器。

对于 SAFE,它利用 LLM 将长篇响应分解为一组单独的事实,并使用多步推理过程来评估每个事实的准确性。这里多步推理过程包括将搜索查询发送到 Google 搜索并确定搜索结果是否支持某个事实 。



论文地址:https://arxiv.org/pdf/2403.18802.pdf

GitHub 地址:https://github.com/google-deepmind/long-form-factuality

此外,研究者提出将 F1 分数(F1@K)扩展为长篇事实性的聚合指标。他们平衡了响应中支持的事实的百分比(精度)和所提供事实相对于代表用户首选响应长度的超参数的百分比(召回率)。

实证结果表明,LLM 智能体可以实现超越人类的评级性能。在一组约 16k 个单独的事实上,SAFE 在 72% 的情况下与人类注释者一致,并且在 100 个分歧案例的随机子集上,SAFE 的赢率为 76%。同时,SAFE 的成本比人类注释者便宜 20 倍以上。

研究者还使用 LongFact,对四个大模型系列(Gemini、GPT、Claude 和 PaLM-2)的 13 种流行的语言模型进行了基准测试,结果发现较大的语言模型通常可以实现更好的长篇事实性。

论文作者之一、谷歌研究科学家 Quoc V. Le 表示,这篇对长篇事实性进行评估和基准测试的新工作提出了一个新数据集、 一种新评估方法以及一种兼顾精度和召回率的聚合指标。同时所有数据和代码将开源以供未来工作使用。



方法概览

LONGFACT:使用 LLM 生成长篇事实性的多主题基准

首先来看使用 GPT-4 生成的 LongFact 提示集,包含了 2280 个事实寻求提示,这些提示要求跨 38 个手动选择主题的长篇响应。研究者表示,LongFact 是第一个用于评估各个领域长篇事实性的提示集。

LongFact 包含两个任务:LongFact-Concepts 和 LongFact-Objects,根据问题是否询问概念或对象来区分。研究者为每个主题生成 30 个独特的提示,每个任务各有 1140 个提示。



SAFE:LLM 智能体作为事实性自动评分者

研究者提出了搜索增强事实评估器(SAFE),它的运行原理如下所示:

a)将长篇的响应拆分为单独的独立事实;

b)确定每个单独的事实是否与回答上下文中的提示相关;

c) 对于每个相关事实,在多步过程中迭代地发出 Google 搜索查询,并推理搜索结果是否支持该事实。

他们认为 SAFE 的关键创新在于使用语言模型作为智能体,来生成多步 Google 搜索查询,并仔细推理搜索结果是否支持事实。下图 3 为推理链示例。



为了将长篇响应拆分为单独的独立事实,研究者首先提示语言模型将长篇响应中的每个句子拆分为单独的事实,然后通过指示模型将模糊引用(如代词)替换为它们在响应上下文中引用的正确实体,将每个单独的事实修改为独立的。

为了对每个独立的事实进行评分,他们使用语言模型来推理该事实是否与在响应上下文中回答的提示相关,接着使用多步方法将每个剩余的相关事实评级为「支持」或「不支持」。具体如下图 1 所示。



在每个步骤中,模型都会根据要评分的事实和之前获得的搜索结果来生成搜索查询。经过一定数量的步骤后,模型执行推理以确定搜索结果是否支持该事实,如上图 3 所示。在对所有事实进行评级后,SAFE 针对给定提示 - 响应对的输出指标为 「支持」事实的数量、「不相关」事实的数量以及「不支持」事实的数量。

实验结果

LLM 智能体成为比人类更好的事实注释者

为了定量评估使用 SAFE 获得注释的质量,研究者使用了众包人类注释。这些数据包含 496 个提示 - 响应对,其中响应被手动拆分为单独的事实(总共 16011 个单独的事实),并且每个单独的事实都被手动标记为支持、不相关或不支持。

他们直接比较每个事实的 SAFE 注释和人类注释,结果发现 SAFE 在 72.0% 的单独事实上与人类一致,如下图 4 所示。这表明 SAFE 在大多数单独事实上都达到了人类水平的表现。然后检查随机采访的 100 个单独事实的子集,其中 SAFE 的注释与人类评分者的注释不一致。



研究者手动重新注释每个事实(允许访问 Google 搜索,而不仅仅是维基百科,以获得更全面的注释),并使用这些标签作为基本事实。他们发现,在这些分歧案例中,SAFE 注释的正确率为 76%,而人工注释的正确率仅为 19%,这代表 SAFE 的胜率是 4 比 1。具体如下图 5 所示。

这里,两种注释方案的价格非常值得关注。使用人工注释对单个模型响应进行评级的成本为 4 美元,而使用 GPT-3.5-Turbo 和 Serper API 的 SAFE 仅为 0.19 美元。



Gemini、GPT、Claude 和 PaLM-2 系列基准测试

最后,研究者在 LongFact 上对下表 1 中四个模型系列(Gemini、GPT、Claude 和 PaLM-2)的 13 个大语言模型进行了广泛的基准测试。

具体来讲,他们利用了 LongFact-Objects 中 250 个提示组成的相同随机子集来评估每个模型,然后使用 SAFE 获取每个模型响应的原始评估指标,并利用 F1@K 指标进行聚合。



结果发现,一般而言,较大的语言模型可以实现更好的长篇事实性。如下图 6 和下表 2 所示,GPT-4-Turbo 优于 GPT-4,GPT-4 优于 GPT-3.5-Turbo,Gemini-Ultra 优于 Gemini-Pro,PaLM-2-L-IT-RLHF 优于 PaLM- 2-L-IT。



更多技术细节和实验结果请参阅原论文。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
鲁能爆猛料,曝郝伟一审结果,金敬道刑期曝光,克雷桑摊上事了

鲁能爆猛料,曝郝伟一审结果,金敬道刑期曝光,克雷桑摊上事了

东球弟
2024-04-29 11:23:21
六个月宝宝哭到窒息身亡,婆婆全程在看电视,儿媳怒扇婆婆耳光

六个月宝宝哭到窒息身亡,婆婆全程在看电视,儿媳怒扇婆婆耳光

户外阿崭
2024-04-29 07:50:12
鲍尔默:只要哈登每场有这种表现,快船愿意给他1.8亿美金合同

鲍尔默:只要哈登每场有这种表现,快船愿意给他1.8亿美金合同

老胡将体育
2024-04-29 09:46:06
快船5分险胜独行侠!不得不承认的8个现实:杜登欧分手是错误选择

快船5分险胜独行侠!不得不承认的8个现实:杜登欧分手是错误选择

毒舌NBA
2024-04-29 06:59:56
穆斯林公开谈论如何推翻英国政府并建立哈里发国

穆斯林公开谈论如何推翻英国政府并建立哈里发国

桂系007
2024-04-29 00:11:46
英超巨大争议!5分钟从1比1到0比2,枪手两次获益,萨卡创纪录

英超巨大争议!5分钟从1比1到0比2,枪手两次获益,萨卡创纪录

奥拜尔
2024-04-28 21:42:41
沪指站上3100点位,涨0.37%

沪指站上3100点位,涨0.37%

每日经济新闻
2024-04-29 10:09:09
事实证明,“消失”7年 定居美国的周立波,已经走上了另一条道路

事实证明,“消失”7年 定居美国的周立波,已经走上了另一条道路

清欢渡语
2024-04-26 22:07:25
汪小菲未婚妻和未来婆婆同桌吃饭,还主动敬茶,张兰并不那么热情

汪小菲未婚妻和未来婆婆同桌吃饭,还主动敬茶,张兰并不那么热情

点点细语
2024-04-28 21:34:31
“新冠疫苗之父”杨晓明被抓!个人履历曝光,评论区彻底失控!

“新冠疫苗之父”杨晓明被抓!个人履历曝光,评论区彻底失控!

古希腊掌管松饼的神
2024-04-28 09:10:08
两岸已谈妥,抢在赖清德上台前,国民党打破常规,解放军战机起飞

两岸已谈妥,抢在赖清德上台前,国民党打破常规,解放军战机起飞

大白话瞰世界
2024-04-29 09:42:33
向阳市委书记路边吃饭,却被副局长调100武警恐吓,结局大快人心

向阳市委书记路边吃饭,却被副局长调100武警恐吓,结局大快人心

八哥讲故事
2024-01-28 17:27:20
俄罗斯发飙了,接连冻结西方企业资产,欧盟被迫向普京求放过

俄罗斯发飙了,接连冻结西方企业资产,欧盟被迫向普京求放过

说天说地说实事
2024-04-29 07:12:36
特斯拉通过中国相关认证!可自由出入机关单位、机场、高速等地?

特斯拉通过中国相关认证!可自由出入机关单位、机场、高速等地?

科学技术宅
2024-04-29 08:26:47
重磅!张志磊突然暴瘦,大肚子都没了,大战维尔德KO收场

重磅!张志磊突然暴瘦,大肚子都没了,大战维尔德KO收场

小豆豆赛事
2024-04-29 09:44:24
赢家!37岁纳瓦斯斩获职业生涯第28冠,皇马12冠&巴黎9冠

赢家!37岁纳瓦斯斩获职业生涯第28冠,皇马12冠&巴黎9冠

直播吧
2024-04-29 09:42:20
华为问界M9登顶!打败BBA,成50万以上豪车榜第1名

华为问界M9登顶!打败BBA,成50万以上豪车榜第1名

互联网.乱侃秀
2024-04-26 20:27:27
山东“女老虎”被判死缓:敛财1.1亿,退休5年被查,一手好牌打得稀烂

山东“女老虎”被判死缓:敛财1.1亿,退休5年被查,一手好牌打得稀烂

天闻地知
2024-04-29 09:42:51
何炅50岁了!众星发文为他庆生,张杰谢娜最积极,何榜彻底消失

何炅50岁了!众星发文为他庆生,张杰谢娜最积极,何榜彻底消失

萌神木木
2024-04-28 11:26:45
英媒:英国议员宣称因持反华立场在入境吉布提时被拘留并驱逐,中方驳斥

英媒:英国议员宣称因持反华立场在入境吉布提时被拘留并驱逐,中方驳斥

环球网资讯
2024-04-29 08:42:14
2024-04-29 12:10:44
机器之心Pro
机器之心Pro
专业的人工智能媒体
8939文章数 141896关注度
往期回顾 全部

科技要闻

马斯克想把特斯拉中国数据送出国 这事太难

头条要闻

女工亲历广州龙卷风:被铁皮顶棚砸晕 爬半小时才回来

头条要闻

女工亲历广州龙卷风:被铁皮顶棚砸晕 爬半小时才回来

体育要闻

湖人的G4,尽人事得到了回报

娱乐要闻

田馥甄遭抵制,蔡依林却能稳稳捞金?

财经要闻

问界M7追尾起火3人遇难 四大疑问待解

汽车要闻

配置更丰富 静态体验2024款欧拉好猫

态度原创

旅游
手机
教育
数码
公开课

旅游要闻

入境游热度持续攀升 “畅游中国”更便捷

手机要闻

消息称OPPO Reno12 Pro手机搭载天玑9200,平板耳机5月底陆续上新

教育要闻

全了!海关系统2024录用2156人,上海海关学院378人,研究生427人

数码要闻

继三星、京东方后,华星光电有望年内宣布 8.6 代 OLED 产线计划

公开课

父亲年龄越大孩子越不聪明?

无障碍浏览 进入关怀版