网易首页 > 网易号 > 正文 申请入驻

让「幻觉」无处遁形!谷歌DeepMind全新基准,三代Gemini同台霸榜

0
分享至

新智元报道

编辑:LRS

【新智元导读】谷歌推出的FACTS Grounding基准测试,能评估AI模型在特定上下文中生成准确文本的能力,有助于提升模型的可靠性;通过去除不满足用户需求的回复,确保了评分的准确性和模型排名的公正性。

大模型几乎成了工作、学习的必备助手,但其本质仍然只是一个统计模型,无论生成的内容再怎么流畅,也难改其胡说八道的老毛病。

在大部分应用场景下,用户也并不知道自己所提问的答案,也就不具备检查模型输出在「事实准确性」(Factuality)上的能力。

一般来说,关于「模型幻觉」的自动化评估研究可以分为两类:

1、给定上下文(用户输入文档)的情况下,检查模型输出是否完全基于输入的内容,比如文本摘要任务;

2、用户直接提出一些与「外部来源」(新闻)或「常识知识」相关的问题。

目前研究大多关注第一类,比如先要求模型进行文本摘要,再进行事实评估,但如何自动评估模型的事实准确性仍然非常有挑战性。

最近,谷歌的研究人员发布了一个全新的基准测试FACTS Grounding,可以评估语言模型在给定上下文的情况下,生成事实准确文本的能力,其中每条数据的输入都包括一个用户请求和一个完整的文档,最大长度为32k个token,模型输出需要完全基于上下文文档,且满足用户需求。

论文链接:https://goo.gle/FACTS_paper

数据链接:https://www.kaggle.com/datasets/deepmind/facts-grounding-examples

文中提出的自动化评估分为两个维度:

1. 如果模型回复没有满足用户需求,则直接判定为无效;

2. 如果模型的回复完全基于给定的文档,则被判定为准确。

FACTS Grounding在Kaggle上有一个在线排行榜,实时维护,目前gemini以较大优势领先。

榜单链接:https://www.kaggle.com/facts-leaderboard

数据构建

FACTS Grounding的样本被划分为Public集合(860条)和Private集合(859条),为了防止基准污染和排行榜作弊问题,在竞赛期间只公开Public集合,并且榜单分数是两个集合的平均性能。

系统提示1:仅使用上下文中提供的信息回答问题,不要依赖外部知识或来源。

上下文文档描述:文章主要讨论可以清洁摩天大楼窗户的自主机器人系统的开发与部署,强调了它的技术进步、安全影响以及对窗户清洁行业的潜在影响。

用户请求:我的姐姐和她的狗住在纽约市。我去过那里,一直对那里的高楼大厦感到着迷。然后我想到...一定有人要清洁这些大楼的窗户!接着,我在我的信息流中看到了关于窗户清洁机器人的内容。这些机器人是如何工作的?这对那些从事这项工作的人来说意味着什么?

标注流程

研究人员雇佣第三方人工标注员,根据长篇输入和问答、摘要、文档改写任务,撰写长篇输出。

每个样本还包括一个系统指令,指导模型仅从给定的上下文中生成其回应,而不包含外部知识。

为了确保输入的多样性,FACTS Grounding包含了各种长度的文档(最长32k个token,约2万个单词),涵盖金融、技术、零售、医学和法律等领域,没有引入那些需要创造力、数学或复杂推理的样本。

数据质量保证

研究人员在标注后手动验证了所有数据,并去除了与指令不一致的样本和创意写作任务。

用户请求必须是非平凡的,并且不需要领域专业知识、数学知识或复杂推理;移除了来源为PDF的文档,避免光学字符识别(OCR)带来的影响。

最终数据集包含的上下文文档平均长度为2.5k个token,最大长度为32k个token

数据污染(data contamination)

由于用户文档是从互联网上公开下载的,可能包含在其他模型的预训练语料库中,但研究人员认为:

  1. 用户请求和系统指令,特别是只遵循上下文文档中的信息的指令,是没有被污染的。对非新颖文档的新颖请求做出回复是语言模型的一个重要用例,而事实grounding也是其中不可或缺的一部分。目前可用的事实性基准测试只是重新利用了可能已经被污染的学术任务。

  2. 事实性得分评估了在预训练期间没有被优化的、不同维度的模型性能。具体来说,指标测量了模型仅基于提供的上下文生成回应的能力,即模型不能包含外部知识,即使与上下文文档相冲突,还应避免利用任何预训练知识来满足用户的请求。

  3. 由于所有最先进的语言模型都是在大量网络数据的语料库上训练的,所以在排行榜的中也很公平。

评估指标

未调整的事实性得分(Unadjusted Factuality Score)

研究人员使用一个语言模型智能体来生成一个二元分类标签,以识别完整的模型回复是否基于给定指令中的用户请求和上下文文档。

如果回应中的所有claims都是基于提示的内容,则标记为positive(准确);如果某个包含信息的claim被认为没有基于提示的内容,回应就会被标记为negative(不准确)。

大模型普遍会偏向于自己的输出,所以研究人员选择使用三种不同的大模型来减少特定模型的偏见,包括Gemini 1.5 Pro, GPT-4o和Claude 3.5 Sonnet

研究人员测试了七种不同的提示模版,然后与人工判断的一致性进行评估,再选择具有最高准确率的模版。

你将被提供一段文本上下文和一个模型生成的回应。你的任务是逐句分析回应,并根据其与提供上下文的关系对每个句子进行分类。

1. 将回复分解成单个句子。

2. 对于每个句子,分配以下标签之一:

supported:句子由给定的上下文推导而来。提供一个支持性的上下文摘录。支持性摘录必须完全推导出句子。如果你需要引用多个支持性摘录,只需将它们连接起来。

unsupported:句子不是由给定的上下文推导而来。这个标签不需要摘录。

contradictory:句子被给定的上下文证伪。提供一个与句子相矛盾的上下文摘录。

no_rad:句子不需要事实归属(例如,意见、问候、问题、免责声明)。这个标签不需要摘录。

3. 对于每个标签,提供一个简短的理由来解释你的决定。理由应该与摘录分开。

4. 对于supported和contradictory的决定要非常严格。除非你能在上下文中找到直接、无可争议的证据摘录,证明一个句子是supported或contradictory,否则认为它是unsupported。除非你真的认为世界知识是微不足道的,否则不要使用世界知识。

因为有三个智能体参与评分,所以每个智能体的个体事实性得分是准确回复的百分比,而未调整的事实性得分是所有智能体模型得分的平均值。

排除无效回复

如果模型只关注于生成文本的事实性,有可能会无法遵循用户的指令意图,并通过给出较短回复以规避错误事实。

为了防范这类回复,研究人员同样使用上述三个大模型进行检测,将指令遵循视为一个独立任务,输出为二元分类,以区分模型回复是否充分满足了用户的请求。

将不合格的回复排除后,最终事实性得分会得到调整。

研究人员设计了两个提示模版,针对不同评估模型选择与人工评估一致性最高的提示词。

实验结果

在Fused Rank指标中,研究人员采用了一种排名聚合方法Condorcet,对每个模型的六个指标进行融合,合并成最终的排名,与使用最终事实性得分排名完全一致。

与之前的研究一致,模型通常会将自己的输出评分高于其他模型,平均提高了+3.23%。

排除无效回复会导致最终事实性得分降低1%至5%,还会引起模型排名的轻微变化,比如Gemini 1.5 Flash从排名第1降至排名第2

参考资料:

https://goo.gle/FACTS_paper

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
强烈呼吁: 将何庭波7年前这封致海思全体员工内部信编入中学教材

强烈呼吁: 将何庭波7年前这封致海思全体员工内部信编入中学教材

故事终将光明磊落
2026-05-27 11:32:02
官方:39岁的丹麦门将小舒梅切尔宣布退役

官方:39岁的丹麦门将小舒梅切尔宣布退役

懂球帝
2026-05-27 15:55:09
“割四赔五”升级版!又有师傅称3000元梯子被盗,哭诉麦收季寒心

“割四赔五”升级版!又有师傅称3000元梯子被盗,哭诉麦收季寒心

火山詩话
2026-05-27 06:50:51
逆天发言!法拉利前主席怒喷首款纯电车:中国人都不会抄

逆天发言!法拉利前主席怒喷首款纯电车:中国人都不会抄

泡泡网
2026-05-27 11:25:19
特朗普曾惊出一身冷汗:中美已无法开战,一杀手锏让美军无计可施

特朗普曾惊出一身冷汗:中美已无法开战,一杀手锏让美军无计可施

你是我的小甜甜
2026-05-27 23:03:54
政府欠债不还,民企被逼出这招:民企飞无人机挂条幅催“快还钱”

政府欠债不还,民企被逼出这招:民企飞无人机挂条幅催“快还钱”

菁菁子衿
2026-05-27 20:02:02
深夜利空!16家公司集体暴雷,2家退市警报拉满,1家立案

深夜利空!16家公司集体暴雷,2家退市警报拉满,1家立案

慧眼看世界哈哈
2026-05-27 12:05:24
弗爷宣布竞选连任皇马主席:掌舵世界最佳,要再带来世界最佳球星

弗爷宣布竞选连任皇马主席:掌舵世界最佳,要再带来世界最佳球星

仰卧撑FTUer
2026-05-27 10:02:15
收评:沪指跌超1% 防御性板块逆势走强

收评:沪指跌超1% 防御性板块逆势走强

财联社
2026-05-27 15:04:06
43岁港星自曝在中山买房,晒房产证直呼划算,四房两厅不到200万

43岁港星自曝在中山买房,晒房产证直呼划算,四房两厅不到200万

八斗小先生
2026-05-27 11:37:59
大瓜!广发百亿基金经理遭实名举报,网友:张雪峰的话含金量上升

大瓜!广发百亿基金经理遭实名举报,网友:张雪峰的话含金量上升

火山詩话
2026-05-27 14:48:31
30万顶大盖帽一夜清零!307亿退回,地方财路断了

30万顶大盖帽一夜清零!307亿退回,地方财路断了

奇葩游戏酱
2026-05-27 11:16:09
国足26人名单将公布!海港2老将回归 3大U23核心入选 李昊或首秀

国足26人名单将公布!海港2老将回归 3大U23核心入选 李昊或首秀

我爱英超
2026-05-27 16:54:09
健美操老师陈瑛玉去世!仅36岁,生龙凤胎,楼梯踩空,学生曝更多

健美操老师陈瑛玉去世!仅36岁,生龙凤胎,楼梯踩空,学生曝更多

千言娱乐记
2026-05-27 15:19:04
男子早餐买4个包子付款21365元,老板守店20天等失主未果后报警寻人!乌龙竟是熊孩子拨弄收款机所致

男子早餐买4个包子付款21365元,老板守店20天等失主未果后报警寻人!乌龙竟是熊孩子拨弄收款机所致

环球网资讯
2026-05-27 07:15:19
真假难辨!多位媒体人曝怀特塞德缺席G1因兴奋剂问题 等官方澄清

真假难辨!多位媒体人曝怀特塞德缺席G1因兴奋剂问题 等官方澄清

醉卧浮生
2026-05-27 16:41:55
被豆包害惨了的大学生们!网友:豆包就是愚蠢且勤劳的老实人

被豆包害惨了的大学生们!网友:豆包就是愚蠢且勤劳的老实人

夜深爱杂谈
2025-12-02 20:51:10
公安部:涉企执法全面排查问题 深入从严整改

公安部:涉企执法全面排查问题 深入从严整改

新华社
2026-05-27 13:47:59
矿难赔偿真相:2026年这个新标准,每个矿工家庭都该知道

矿难赔偿真相:2026年这个新标准,每个矿工家庭都该知道

黑翼天使
2026-05-26 16:48:55
洋葱立大功!医生发现:洋葱或对3种慢性病有好处!可以常吃

洋葱立大功!医生发现:洋葱或对3种慢性病有好处!可以常吃

芹姐说生活
2026-05-25 14:19:45
2026-05-28 01:24:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15321文章数 66892关注度
往期回顾 全部

科技要闻

韬定律:全球在卷纳米数 华为换了一把尺子

头条要闻

女子称车祸住院遭男医生侵犯 送检的纸巾检出医生精斑

头条要闻

女子称车祸住院遭男医生侵犯 送检的纸巾检出医生精斑

体育要闻

这群老阿姨,是最硬核的马刺球迷

娱乐要闻

王鹤棣风波连累父亲炸串店遭差评?

财经要闻

中国半导体的阳谋

汽车要闻

限时补贴价9.28-10.98万 MG 4X正式上市

态度原创

房产
家居
艺术
本地
数码

房产要闻

合生创展前总裁被查!直指房企违规放贷、利益输送等问题

家居要闻

古老而持久 石影扶手椅

艺术要闻

蚂蚁新总部封顶了!大圆环到底有啥魔力,科技公司都抢着用?

本地新闻

用剪纸的方式,打开江苏扬州

数码要闻

雷鸟GT系列AR眼镜发布 267英寸巨幕+杜比视界 1899起

无障碍浏览 进入关怀版