网易首页 > 网易号 > 正文 申请入驻

让「幻觉」无处遁形!谷歌DeepMind全新基准,三代Gemini同台霸榜

0
分享至

新智元报道

编辑:LRS

【新智元导读】谷歌推出的FACTS Grounding基准测试,能评估AI模型在特定上下文中生成准确文本的能力,有助于提升模型的可靠性;通过去除不满足用户需求的回复,确保了评分的准确性和模型排名的公正性。

大模型几乎成了工作、学习的必备助手,但其本质仍然只是一个统计模型,无论生成的内容再怎么流畅,也难改其胡说八道的老毛病。

在大部分应用场景下,用户也并不知道自己所提问的答案,也就不具备检查模型输出在「事实准确性」(Factuality)上的能力。

一般来说,关于「模型幻觉」的自动化评估研究可以分为两类:

1、给定上下文(用户输入文档)的情况下,检查模型输出是否完全基于输入的内容,比如文本摘要任务;

2、用户直接提出一些与「外部来源」(新闻)或「常识知识」相关的问题。

目前研究大多关注第一类,比如先要求模型进行文本摘要,再进行事实评估,但如何自动评估模型的事实准确性仍然非常有挑战性。

最近,谷歌的研究人员发布了一个全新的基准测试FACTS Grounding,可以评估语言模型在给定上下文的情况下,生成事实准确文本的能力,其中每条数据的输入都包括一个用户请求和一个完整的文档,最大长度为32k个token,模型输出需要完全基于上下文文档,且满足用户需求。

论文链接:https://goo.gle/FACTS_paper

数据链接:https://www.kaggle.com/datasets/deepmind/facts-grounding-examples

文中提出的自动化评估分为两个维度:

1. 如果模型回复没有满足用户需求,则直接判定为无效;

2. 如果模型的回复完全基于给定的文档,则被判定为准确。

FACTS Grounding在Kaggle上有一个在线排行榜,实时维护,目前gemini以较大优势领先。

榜单链接:https://www.kaggle.com/facts-leaderboard

数据构建

FACTS Grounding的样本被划分为Public集合(860条)和Private集合(859条),为了防止基准污染和排行榜作弊问题,在竞赛期间只公开Public集合,并且榜单分数是两个集合的平均性能。

系统提示1:仅使用上下文中提供的信息回答问题,不要依赖外部知识或来源。

上下文文档描述:文章主要讨论可以清洁摩天大楼窗户的自主机器人系统的开发与部署,强调了它的技术进步、安全影响以及对窗户清洁行业的潜在影响。

用户请求:我的姐姐和她的狗住在纽约市。我去过那里,一直对那里的高楼大厦感到着迷。然后我想到...一定有人要清洁这些大楼的窗户!接着,我在我的信息流中看到了关于窗户清洁机器人的内容。这些机器人是如何工作的?这对那些从事这项工作的人来说意味着什么?

标注流程

研究人员雇佣第三方人工标注员,根据长篇输入和问答、摘要、文档改写任务,撰写长篇输出。

每个样本还包括一个系统指令,指导模型仅从给定的上下文中生成其回应,而不包含外部知识。

为了确保输入的多样性,FACTS Grounding包含了各种长度的文档(最长32k个token,约2万个单词),涵盖金融、技术、零售、医学和法律等领域,没有引入那些需要创造力、数学或复杂推理的样本。

数据质量保证

研究人员在标注后手动验证了所有数据,并去除了与指令不一致的样本和创意写作任务。

用户请求必须是非平凡的,并且不需要领域专业知识、数学知识或复杂推理;移除了来源为PDF的文档,避免光学字符识别(OCR)带来的影响。

最终数据集包含的上下文文档平均长度为2.5k个token,最大长度为32k个token

数据污染(data contamination)

由于用户文档是从互联网上公开下载的,可能包含在其他模型的预训练语料库中,但研究人员认为:

  1. 用户请求和系统指令,特别是只遵循上下文文档中的信息的指令,是没有被污染的。对非新颖文档的新颖请求做出回复是语言模型的一个重要用例,而事实grounding也是其中不可或缺的一部分。目前可用的事实性基准测试只是重新利用了可能已经被污染的学术任务。

  2. 事实性得分评估了在预训练期间没有被优化的、不同维度的模型性能。具体来说,指标测量了模型仅基于提供的上下文生成回应的能力,即模型不能包含外部知识,即使与上下文文档相冲突,还应避免利用任何预训练知识来满足用户的请求。

  3. 由于所有最先进的语言模型都是在大量网络数据的语料库上训练的,所以在排行榜的中也很公平。

评估指标

未调整的事实性得分(Unadjusted Factuality Score)

研究人员使用一个语言模型智能体来生成一个二元分类标签,以识别完整的模型回复是否基于给定指令中的用户请求和上下文文档。

如果回应中的所有claims都是基于提示的内容,则标记为positive(准确);如果某个包含信息的claim被认为没有基于提示的内容,回应就会被标记为negative(不准确)。

大模型普遍会偏向于自己的输出,所以研究人员选择使用三种不同的大模型来减少特定模型的偏见,包括Gemini 1.5 Pro, GPT-4o和Claude 3.5 Sonnet

研究人员测试了七种不同的提示模版,然后与人工判断的一致性进行评估,再选择具有最高准确率的模版。

你将被提供一段文本上下文和一个模型生成的回应。你的任务是逐句分析回应,并根据其与提供上下文的关系对每个句子进行分类。

1. 将回复分解成单个句子。

2. 对于每个句子,分配以下标签之一:

supported:句子由给定的上下文推导而来。提供一个支持性的上下文摘录。支持性摘录必须完全推导出句子。如果你需要引用多个支持性摘录,只需将它们连接起来。

unsupported:句子不是由给定的上下文推导而来。这个标签不需要摘录。

contradictory:句子被给定的上下文证伪。提供一个与句子相矛盾的上下文摘录。

no_rad:句子不需要事实归属(例如,意见、问候、问题、免责声明)。这个标签不需要摘录。

3. 对于每个标签,提供一个简短的理由来解释你的决定。理由应该与摘录分开。

4. 对于supported和contradictory的决定要非常严格。除非你能在上下文中找到直接、无可争议的证据摘录,证明一个句子是supported或contradictory,否则认为它是unsupported。除非你真的认为世界知识是微不足道的,否则不要使用世界知识。

因为有三个智能体参与评分,所以每个智能体的个体事实性得分是准确回复的百分比,而未调整的事实性得分是所有智能体模型得分的平均值。

排除无效回复

如果模型只关注于生成文本的事实性,有可能会无法遵循用户的指令意图,并通过给出较短回复以规避错误事实。

为了防范这类回复,研究人员同样使用上述三个大模型进行检测,将指令遵循视为一个独立任务,输出为二元分类,以区分模型回复是否充分满足了用户的请求。

将不合格的回复排除后,最终事实性得分会得到调整。

研究人员设计了两个提示模版,针对不同评估模型选择与人工评估一致性最高的提示词。

实验结果

在Fused Rank指标中,研究人员采用了一种排名聚合方法Condorcet,对每个模型的六个指标进行融合,合并成最终的排名,与使用最终事实性得分排名完全一致。

与之前的研究一致,模型通常会将自己的输出评分高于其他模型,平均提高了+3.23%。

排除无效回复会导致最终事实性得分降低1%至5%,还会引起模型排名的轻微变化,比如Gemini 1.5 Flash从排名第1降至排名第2

参考资料:

https://goo.gle/FACTS_paper

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
神级躺赢!索汉提前锁定NBA总冠军戒指 本季先后效力马刺尼克斯

神级躺赢!索汉提前锁定NBA总冠军戒指 本季先后效力马刺尼克斯

醉卧浮生
2026-06-01 05:45:13
天空:拉什福德正在迈阿密国际训练基地训练,这里设施顶尖

天空:拉什福德正在迈阿密国际训练基地训练,这里设施顶尖

懂球帝
2026-06-01 23:45:07
亏光1亿后67亿“卖掉”公司,小杨哥这次能成功翻身吗?

亏光1亿后67亿“卖掉”公司,小杨哥这次能成功翻身吗?

青眼财经
2026-06-01 10:37:30
2026,人类第一次面对“高温围城”:这一次,谁先撑不住?

2026,人类第一次面对“高温围城”:这一次,谁先撑不住?

李砍柴
2026-06-01 16:18:39
演员王星军:与关牧村离婚34年,65岁未再婚,他到底追求什么?

演员王星军:与关牧村离婚34年,65岁未再婚,他到底追求什么?

飘飘然的娱乐汇
2026-06-01 19:15:05
中央明确了!社保最低缴费年限要提高,70、80后得早做准备

中央明确了!社保最低缴费年限要提高,70、80后得早做准备

云鹏叙事
2026-04-12 16:36:39
洛夫顿又回上海了!球迷偶遇独自一人吃外卖,估计是治疗去的?

洛夫顿又回上海了!球迷偶遇独自一人吃外卖,估计是治疗去的?

篮球资讯达人
2026-06-01 20:27:06
中际旭创,成沪深300指数第一大权重股

中际旭创,成沪深300指数第一大权重股

证券时报
2026-06-01 22:51:04
1996年,他与董建华竞选特首失败,没想到,却成了香港头号包租公

1996年,他与董建华竞选特首失败,没想到,却成了香港头号包租公

鉴史录
2026-06-01 12:59:01
38天首球!1.5亿欧巨星复活:40米奔袭一条龙破门 绝美弧线太霸道

38天首球!1.5亿欧巨星复活:40米奔袭一条龙破门 绝美弧线太霸道

风过乡
2026-06-02 06:10:00
石家庄市第十五届人民代表大会常务委员会公告

石家庄市第十五届人民代表大会常务委员会公告

环球网资讯
2026-06-01 22:19:05
足坛一夜动态:挪威击败瑞典,土耳其4球大胜,奥地利1-0突尼斯

足坛一夜动态:挪威击败瑞典,土耳其4球大胜,奥地利1-0突尼斯

足球狗说
2026-06-02 04:44:59
百万网红边牧被卖后续!母亲崩溃怒斥,当事人放话,收狗人曝内情

百万网红边牧被卖后续!母亲崩溃怒斥,当事人放话,收狗人曝内情

奇思妙想草叶君
2026-05-30 22:22:07
国产新伟哥上市!舌下含服15分钟起效,不伤血管,中老年男性适用

国产新伟哥上市!舌下含服15分钟起效,不伤血管,中老年男性适用

思思夜话
2026-06-01 15:24:26
毛主席派宋时轮给刘志丹当助手,宋吐苦水:我已被开除党籍一年了

毛主席派宋时轮给刘志丹当助手,宋吐苦水:我已被开除党籍一年了

我不是沃神
2026-06-02 08:10:03
苹果眼镜要掀翻两千亿美元眼镜市场?套路跟手表一样

苹果眼镜要掀翻两千亿美元眼镜市场?套路跟手表一样

薛定谔的BUG
2026-06-01 20:16:02
雷霆出局侧证詹皇伟大!美媒晒4点为LBJ写赞歌:八连总决轻松吗?

雷霆出局侧证詹皇伟大!美媒晒4点为LBJ写赞歌:八连总决轻松吗?

颜小白的篮球梦
2026-06-01 23:01:37
32岁白举纲喜为人父,1岁女儿白胖可爱,妻子非圈内人

32岁白举纲喜为人父,1岁女儿白胖可爱,妻子非圈内人

书慧我心
2026-06-01 14:13:33
下个沪电股份?这家11元低价+高端PCB铜箔龙头   主力暴抢16亿元

下个沪电股份?这家11元低价+高端PCB铜箔龙头 主力暴抢16亿元

元芳说投资
2026-06-02 00:00:09
伊劳拉即将执教利物浦 同时获得一个超强辅助!

伊劳拉即将执教利物浦 同时获得一个超强辅助!

小彭美识
2026-06-02 07:47:07
2026-06-02 09:00:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15359文章数 66894关注度
往期回顾 全部

科技要闻

英伟达RTX Spark 很猛,但首批机型不便宜

头条要闻

牛弹琴:伊朗突然发飙 特朗普急了被迫打了一个电话

头条要闻

牛弹琴:伊朗突然发飙 特朗普急了被迫打了一个电话

体育要闻

杰威:如果我没受伤,我们能击败马刺

娱乐要闻

奚梦瑶婚礼现场图!一双儿女当花童

财经要闻

宇树过会,杭州赢麻了

汽车要闻

奇瑞集团5月销量24.8万辆 同比增长20.5% 出口18.2万辆再创新高

态度原创

艺术
手机
游戏
本地
公开课

艺术要闻

周杰伦花 1.36 亿拍下的这幅画

手机要闻

苹果WWDC26下周开幕,新标语“全高光就位”暗指Siri将迎改版

LPL美女解说鼓鼓被私信喊妈妈 极端粉丝太逆天了

本地新闻

用剪纸的方式,打开江苏扬州

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版