网易首页 > 网易号 > 正文 申请入驻

让「幻觉」无处遁形!谷歌DeepMind全新基准,三代Gemini同台霸榜

0
分享至

新智元报道

编辑:LRS

【新智元导读】谷歌推出的FACTS Grounding基准测试,能评估AI模型在特定上下文中生成准确文本的能力,有助于提升模型的可靠性;通过去除不满足用户需求的回复,确保了评分的准确性和模型排名的公正性。

大模型几乎成了工作、学习的必备助手,但其本质仍然只是一个统计模型,无论生成的内容再怎么流畅,也难改其胡说八道的老毛病。

在大部分应用场景下,用户也并不知道自己所提问的答案,也就不具备检查模型输出在「事实准确性」(Factuality)上的能力。

一般来说,关于「模型幻觉」的自动化评估研究可以分为两类:

1、给定上下文(用户输入文档)的情况下,检查模型输出是否完全基于输入的内容,比如文本摘要任务;

2、用户直接提出一些与「外部来源」(新闻)或「常识知识」相关的问题。

目前研究大多关注第一类,比如先要求模型进行文本摘要,再进行事实评估,但如何自动评估模型的事实准确性仍然非常有挑战性。

最近,谷歌的研究人员发布了一个全新的基准测试FACTS Grounding,可以评估语言模型在给定上下文的情况下,生成事实准确文本的能力,其中每条数据的输入都包括一个用户请求和一个完整的文档,最大长度为32k个token,模型输出需要完全基于上下文文档,且满足用户需求。

论文链接:https://goo.gle/FACTS_paper

数据链接:https://www.kaggle.com/datasets/deepmind/facts-grounding-examples

文中提出的自动化评估分为两个维度:

1. 如果模型回复没有满足用户需求,则直接判定为无效;

2. 如果模型的回复完全基于给定的文档,则被判定为准确。

FACTS Grounding在Kaggle上有一个在线排行榜,实时维护,目前gemini以较大优势领先。

榜单链接:https://www.kaggle.com/facts-leaderboard

数据构建

FACTS Grounding的样本被划分为Public集合(860条)和Private集合(859条),为了防止基准污染和排行榜作弊问题,在竞赛期间只公开Public集合,并且榜单分数是两个集合的平均性能。

系统提示1:仅使用上下文中提供的信息回答问题,不要依赖外部知识或来源。

上下文文档描述:文章主要讨论可以清洁摩天大楼窗户的自主机器人系统的开发与部署,强调了它的技术进步、安全影响以及对窗户清洁行业的潜在影响。

用户请求:我的姐姐和她的狗住在纽约市。我去过那里,一直对那里的高楼大厦感到着迷。然后我想到...一定有人要清洁这些大楼的窗户!接着,我在我的信息流中看到了关于窗户清洁机器人的内容。这些机器人是如何工作的?这对那些从事这项工作的人来说意味着什么?

标注流程

研究人员雇佣第三方人工标注员,根据长篇输入和问答、摘要、文档改写任务,撰写长篇输出。

每个样本还包括一个系统指令,指导模型仅从给定的上下文中生成其回应,而不包含外部知识。

为了确保输入的多样性,FACTS Grounding包含了各种长度的文档(最长32k个token,约2万个单词),涵盖金融、技术、零售、医学和法律等领域,没有引入那些需要创造力、数学或复杂推理的样本。

数据质量保证

研究人员在标注后手动验证了所有数据,并去除了与指令不一致的样本和创意写作任务。

用户请求必须是非平凡的,并且不需要领域专业知识、数学知识或复杂推理;移除了来源为PDF的文档,避免光学字符识别(OCR)带来的影响。

最终数据集包含的上下文文档平均长度为2.5k个token,最大长度为32k个token

数据污染(data contamination)

由于用户文档是从互联网上公开下载的,可能包含在其他模型的预训练语料库中,但研究人员认为:

  1. 用户请求和系统指令,特别是只遵循上下文文档中的信息的指令,是没有被污染的。对非新颖文档的新颖请求做出回复是语言模型的一个重要用例,而事实grounding也是其中不可或缺的一部分。目前可用的事实性基准测试只是重新利用了可能已经被污染的学术任务。

  2. 事实性得分评估了在预训练期间没有被优化的、不同维度的模型性能。具体来说,指标测量了模型仅基于提供的上下文生成回应的能力,即模型不能包含外部知识,即使与上下文文档相冲突,还应避免利用任何预训练知识来满足用户的请求。

  3. 由于所有最先进的语言模型都是在大量网络数据的语料库上训练的,所以在排行榜的中也很公平。

评估指标

未调整的事实性得分(Unadjusted Factuality Score)

研究人员使用一个语言模型智能体来生成一个二元分类标签,以识别完整的模型回复是否基于给定指令中的用户请求和上下文文档。

如果回应中的所有claims都是基于提示的内容,则标记为positive(准确);如果某个包含信息的claim被认为没有基于提示的内容,回应就会被标记为negative(不准确)。

大模型普遍会偏向于自己的输出,所以研究人员选择使用三种不同的大模型来减少特定模型的偏见,包括Gemini 1.5 Pro, GPT-4o和Claude 3.5 Sonnet

研究人员测试了七种不同的提示模版,然后与人工判断的一致性进行评估,再选择具有最高准确率的模版。

你将被提供一段文本上下文和一个模型生成的回应。你的任务是逐句分析回应,并根据其与提供上下文的关系对每个句子进行分类。

1. 将回复分解成单个句子。

2. 对于每个句子,分配以下标签之一:

supported:句子由给定的上下文推导而来。提供一个支持性的上下文摘录。支持性摘录必须完全推导出句子。如果你需要引用多个支持性摘录,只需将它们连接起来。

unsupported:句子不是由给定的上下文推导而来。这个标签不需要摘录。

contradictory:句子被给定的上下文证伪。提供一个与句子相矛盾的上下文摘录。

no_rad:句子不需要事实归属(例如,意见、问候、问题、免责声明)。这个标签不需要摘录。

3. 对于每个标签,提供一个简短的理由来解释你的决定。理由应该与摘录分开。

4. 对于supported和contradictory的决定要非常严格。除非你能在上下文中找到直接、无可争议的证据摘录,证明一个句子是supported或contradictory,否则认为它是unsupported。除非你真的认为世界知识是微不足道的,否则不要使用世界知识。

因为有三个智能体参与评分,所以每个智能体的个体事实性得分是准确回复的百分比,而未调整的事实性得分是所有智能体模型得分的平均值。

排除无效回复

如果模型只关注于生成文本的事实性,有可能会无法遵循用户的指令意图,并通过给出较短回复以规避错误事实。

为了防范这类回复,研究人员同样使用上述三个大模型进行检测,将指令遵循视为一个独立任务,输出为二元分类,以区分模型回复是否充分满足了用户的请求。

将不合格的回复排除后,最终事实性得分会得到调整。

研究人员设计了两个提示模版,针对不同评估模型选择与人工评估一致性最高的提示词。

实验结果

在Fused Rank指标中,研究人员采用了一种排名聚合方法Condorcet,对每个模型的六个指标进行融合,合并成最终的排名,与使用最终事实性得分排名完全一致。

与之前的研究一致,模型通常会将自己的输出评分高于其他模型,平均提高了+3.23%。

排除无效回复会导致最终事实性得分降低1%至5%,还会引起模型排名的轻微变化,比如Gemini 1.5 Flash从排名第1降至排名第2

参考资料:

https://goo.gle/FACTS_paper

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
特朗普张口得罪全球,美国紧急警告中国别捅刀,中方沉默震耳欲聋

特朗普张口得罪全球,美国紧急警告中国别捅刀,中方沉默震耳欲聋

梁讯
2026-02-23 20:00:07
妈祖被换女孩三天涨粉几十万:一场“自导自演”的流量狂欢?

妈祖被换女孩三天涨粉几十万:一场“自导自演”的流量狂欢?

听心堂
2026-02-24 11:27:44
电饭煲按下去的那一刻,北方的面食时代就结束了

电饭煲按下去的那一刻,北方的面食时代就结束了

富贵说
2026-02-22 21:14:55
策略:明天2月25日的预判出来了,全面减仓之前,我要说两句!

策略:明天2月25日的预判出来了,全面减仓之前,我要说两句!

一担金
2026-02-24 12:31:58
旅客凌晨3点收到候补成功通知,醒来时列车已开,近1700元车票作废,12306回应:发车后未乘车的车票仅可改签

旅客凌晨3点收到候补成功通知,醒来时列车已开,近1700元车票作废,12306回应:发车后未乘车的车票仅可改签

大象新闻
2026-02-24 12:44:03
拖了十年不发证?C919收起讨好硬刚欧美适航霸权,直接掀桌改规则

拖了十年不发证?C919收起讨好硬刚欧美适航霸权,直接掀桌改规则

刘旷
2026-02-22 12:51:46
恭喜筱梅生了小马宝!宝宝白白胖胖,大眼睛,高鼻梁,非常可爱!

恭喜筱梅生了小马宝!宝宝白白胖胖,大眼睛,高鼻梁,非常可爱!

离离言几许
2026-02-24 11:48:01
大风追踪|河南15岁女孩被当街殴打,母亲再发声:女儿伤情鉴定轻伤二级,苏醒后一直默默流泪

大风追踪|河南15岁女孩被当街殴打,母亲再发声:女儿伤情鉴定轻伤二级,苏醒后一直默默流泪

大风新闻
2026-02-24 11:52:06
2026年,看电视不用再交“月租”了!这几种方法,合法还免费

2026年,看电视不用再交“月租”了!这几种方法,合法还免费

小柱解说游戏
2026-02-24 06:38:45
马筱梅生子!孩子小名曝光,张兰公布生产细节,却被质疑太偏心!

马筱梅生子!孩子小名曝光,张兰公布生产细节,却被质疑太偏心!

古希腊掌管月桂的神
2026-02-24 13:45:04
曝三家中国AI通过"蒸馏攻击"非法提取 Claude 模型的能力来训练自家模型

曝三家中国AI通过"蒸馏攻击"非法提取 Claude 模型的能力来训练自家模型

爆角追踪
2026-02-24 11:15:24
深圳男子840万房产到手仅7万:掏空六个钱包,半生努力归零

深圳男子840万房产到手仅7万:掏空六个钱包,半生努力归零

石辰搞笑日常
2026-02-23 09:35:56
碧桂园7000亿项目烂尾

碧桂园7000亿项目烂尾

地产微资讯
2026-02-23 21:46:01
央媒曝光:14种品牌奶粉都是假的!原料为奶精+淀粉,已销往全国

央媒曝光:14种品牌奶粉都是假的!原料为奶精+淀粉,已销往全国

云舟史策
2026-02-23 16:26:54
中国在猛攻日本经济最后的支柱——汽车工业,结局很令人意外!

中国在猛攻日本经济最后的支柱——汽车工业,结局很令人意外!

青青子衿
2026-02-14 16:41:35
石头洗地机A30 Pro Steam 2.0上市:180℃活性蒸汽,更守护健康

石头洗地机A30 Pro Steam 2.0上市:180℃活性蒸汽,更守护健康

中国家电网
2026-02-24 11:03:47
集体大涨!300164,一分钟拉涨停

集体大涨!300164,一分钟拉涨停

中国基金报
2026-02-24 13:06:38
王楠执教突遭举报!上任即翻车,郭斌最担心的事还是来了

王楠执教突遭举报!上任即翻车,郭斌最担心的事还是来了

卿子书
2026-02-24 09:04:42
火箭大胜爵士升西部第三:杜兰特18+12助攻加盟新高 小贾31+9

火箭大胜爵士升西部第三:杜兰特18+12助攻加盟新高 小贾31+9

醉卧浮生
2026-02-24 12:54:22
弱冷空气在广东“开工”,多地有分散性零星小雨!早晚有轻雾

弱冷空气在广东“开工”,多地有分散性零星小雨!早晚有轻雾

南方都市报
2026-02-24 11:37:04
2026-02-24 16:08:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14581文章数 66639关注度
往期回顾 全部

科技要闻

AI颠覆发展最新牺牲品!IBM跳水重挫超13%

头条要闻

38岁中国商人在土耳其被害 警方:遭同行女子引诱掳上车

头条要闻

38岁中国商人在土耳其被害 警方:遭同行女子引诱掳上车

体育要闻

苏翊鸣总结米兰征程:我仍是那个热爱单板滑雪的少年

娱乐要闻

杨洋传遇上缅北剧组 开机就离开剧组?

财经要闻

县城消费「限时繁荣」了十天

汽车要闻

入门即满配 威兰达AIR版上市 13.78万元起

态度原创

艺术
教育
家居
房产
手机

艺术要闻

2025年第八届全国青年美展 | 油画作品选刊

教育要闻

如何评价高二英语难度?中考英语130,高二文章完全看不懂

家居要闻

本真栖居 爱暖伴流年

房产要闻

窗前即地标!独占三亚湾C位 自贸港总裁行宫亮相

手机要闻

OPPO陈希吐槽苹果最新旗舰iPhone 17 Pro,称完全开始不讲究了

无障碍浏览 进入关怀版