网易首页 > 网易号 > 正文 申请入驻

让「幻觉」无处遁形!谷歌DeepMind全新基准,三代Gemini同台霸榜

0
分享至

新智元报道

编辑:LRS

【新智元导读】谷歌推出的FACTS Grounding基准测试,能评估AI模型在特定上下文中生成准确文本的能力,有助于提升模型的可靠性;通过去除不满足用户需求的回复,确保了评分的准确性和模型排名的公正性。

大模型几乎成了工作、学习的必备助手,但其本质仍然只是一个统计模型,无论生成的内容再怎么流畅,也难改其胡说八道的老毛病。

在大部分应用场景下,用户也并不知道自己所提问的答案,也就不具备检查模型输出在「事实准确性」(Factuality)上的能力。

一般来说,关于「模型幻觉」的自动化评估研究可以分为两类:

1、给定上下文(用户输入文档)的情况下,检查模型输出是否完全基于输入的内容,比如文本摘要任务;

2、用户直接提出一些与「外部来源」(新闻)或「常识知识」相关的问题。

目前研究大多关注第一类,比如先要求模型进行文本摘要,再进行事实评估,但如何自动评估模型的事实准确性仍然非常有挑战性。

最近,谷歌的研究人员发布了一个全新的基准测试FACTS Grounding,可以评估语言模型在给定上下文的情况下,生成事实准确文本的能力,其中每条数据的输入都包括一个用户请求和一个完整的文档,最大长度为32k个token,模型输出需要完全基于上下文文档,且满足用户需求。

论文链接:https://goo.gle/FACTS_paper

数据链接:https://www.kaggle.com/datasets/deepmind/facts-grounding-examples

文中提出的自动化评估分为两个维度:

1. 如果模型回复没有满足用户需求,则直接判定为无效;

2. 如果模型的回复完全基于给定的文档,则被判定为准确。

FACTS Grounding在Kaggle上有一个在线排行榜,实时维护,目前gemini以较大优势领先。

榜单链接:https://www.kaggle.com/facts-leaderboard

数据构建

FACTS Grounding的样本被划分为Public集合(860条)和Private集合(859条),为了防止基准污染和排行榜作弊问题,在竞赛期间只公开Public集合,并且榜单分数是两个集合的平均性能。

系统提示1:仅使用上下文中提供的信息回答问题,不要依赖外部知识或来源。

上下文文档描述:文章主要讨论可以清洁摩天大楼窗户的自主机器人系统的开发与部署,强调了它的技术进步、安全影响以及对窗户清洁行业的潜在影响。

用户请求:我的姐姐和她的狗住在纽约市。我去过那里,一直对那里的高楼大厦感到着迷。然后我想到...一定有人要清洁这些大楼的窗户!接着,我在我的信息流中看到了关于窗户清洁机器人的内容。这些机器人是如何工作的?这对那些从事这项工作的人来说意味着什么?

标注流程

研究人员雇佣第三方人工标注员,根据长篇输入和问答、摘要、文档改写任务,撰写长篇输出。

每个样本还包括一个系统指令,指导模型仅从给定的上下文中生成其回应,而不包含外部知识。

为了确保输入的多样性,FACTS Grounding包含了各种长度的文档(最长32k个token,约2万个单词),涵盖金融、技术、零售、医学和法律等领域,没有引入那些需要创造力、数学或复杂推理的样本。

数据质量保证

研究人员在标注后手动验证了所有数据,并去除了与指令不一致的样本和创意写作任务。

用户请求必须是非平凡的,并且不需要领域专业知识、数学知识或复杂推理;移除了来源为PDF的文档,避免光学字符识别(OCR)带来的影响。

最终数据集包含的上下文文档平均长度为2.5k个token,最大长度为32k个token

数据污染(data contamination)

由于用户文档是从互联网上公开下载的,可能包含在其他模型的预训练语料库中,但研究人员认为:

  1. 用户请求和系统指令,特别是只遵循上下文文档中的信息的指令,是没有被污染的。对非新颖文档的新颖请求做出回复是语言模型的一个重要用例,而事实grounding也是其中不可或缺的一部分。目前可用的事实性基准测试只是重新利用了可能已经被污染的学术任务。

  2. 事实性得分评估了在预训练期间没有被优化的、不同维度的模型性能。具体来说,指标测量了模型仅基于提供的上下文生成回应的能力,即模型不能包含外部知识,即使与上下文文档相冲突,还应避免利用任何预训练知识来满足用户的请求。

  3. 由于所有最先进的语言模型都是在大量网络数据的语料库上训练的,所以在排行榜的中也很公平。

评估指标

未调整的事实性得分(Unadjusted Factuality Score)

研究人员使用一个语言模型智能体来生成一个二元分类标签,以识别完整的模型回复是否基于给定指令中的用户请求和上下文文档。

如果回应中的所有claims都是基于提示的内容,则标记为positive(准确);如果某个包含信息的claim被认为没有基于提示的内容,回应就会被标记为negative(不准确)。

大模型普遍会偏向于自己的输出,所以研究人员选择使用三种不同的大模型来减少特定模型的偏见,包括Gemini 1.5 Pro, GPT-4o和Claude 3.5 Sonnet

研究人员测试了七种不同的提示模版,然后与人工判断的一致性进行评估,再选择具有最高准确率的模版。

你将被提供一段文本上下文和一个模型生成的回应。你的任务是逐句分析回应,并根据其与提供上下文的关系对每个句子进行分类。

1. 将回复分解成单个句子。

2. 对于每个句子,分配以下标签之一:

supported:句子由给定的上下文推导而来。提供一个支持性的上下文摘录。支持性摘录必须完全推导出句子。如果你需要引用多个支持性摘录,只需将它们连接起来。

unsupported:句子不是由给定的上下文推导而来。这个标签不需要摘录。

contradictory:句子被给定的上下文证伪。提供一个与句子相矛盾的上下文摘录。

no_rad:句子不需要事实归属(例如,意见、问候、问题、免责声明)。这个标签不需要摘录。

3. 对于每个标签,提供一个简短的理由来解释你的决定。理由应该与摘录分开。

4. 对于supported和contradictory的决定要非常严格。除非你能在上下文中找到直接、无可争议的证据摘录,证明一个句子是supported或contradictory,否则认为它是unsupported。除非你真的认为世界知识是微不足道的,否则不要使用世界知识。

因为有三个智能体参与评分,所以每个智能体的个体事实性得分是准确回复的百分比,而未调整的事实性得分是所有智能体模型得分的平均值。

排除无效回复

如果模型只关注于生成文本的事实性,有可能会无法遵循用户的指令意图,并通过给出较短回复以规避错误事实。

为了防范这类回复,研究人员同样使用上述三个大模型进行检测,将指令遵循视为一个独立任务,输出为二元分类,以区分模型回复是否充分满足了用户的请求。

将不合格的回复排除后,最终事实性得分会得到调整。

研究人员设计了两个提示模版,针对不同评估模型选择与人工评估一致性最高的提示词。

实验结果

在Fused Rank指标中,研究人员采用了一种排名聚合方法Condorcet,对每个模型的六个指标进行融合,合并成最终的排名,与使用最终事实性得分排名完全一致。

与之前的研究一致,模型通常会将自己的输出评分高于其他模型,平均提高了+3.23%。

排除无效回复会导致最终事实性得分降低1%至5%,还会引起模型排名的轻微变化,比如Gemini 1.5 Flash从排名第1降至排名第2

参考资料:

https://goo.gle/FACTS_paper

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
2026年5月1日起从严整治,体制内人员务必严守九条红线

2026年5月1日起从严整治,体制内人员务必严守九条红线

职场资深秘书
2026-05-22 21:01:25
蒙古人为什么这么恨中国?四个大实话,听完别不舒服

蒙古人为什么这么恨中国?四个大实话,听完别不舒服

老鹈爱说事
2026-05-21 15:26:51
王鸥和何九华的瓜,说白了就是一场各取所需。

王鸥和何九华的瓜,说白了就是一场各取所需。

岁月有情1314
2026-05-26 03:29:09
铜市出现历史性大提货

铜市出现历史性大提货

第一财经资讯
2026-05-25 19:13:34
梁朝伟和汤唯在《色戒》里“假戏真做”?网友爆出截图:一目了然

梁朝伟和汤唯在《色戒》里“假戏真做”?网友爆出截图:一目了然

姜糖先生
2025-06-08 19:31:00
谈判失败,轮到中方掀桌子,拒绝美军高层访华,中方已定调统一

谈判失败,轮到中方掀桌子,拒绝美军高层访华,中方已定调统一

掉了颗大白兔糖
2026-05-22 11:52:45
皮特森:我以为自己快要死了 2026年状元居然是个病秧子?

皮特森:我以为自己快要死了 2026年状元居然是个病秧子?

仰卧撑FTUer
2026-05-25 11:00:03
移民地震!“H-1B必须回国办绿卡”引爆全美后,移民局最新表示:这些人不用回

移民地震!“H-1B必须回国办绿卡”引爆全美后,移民局最新表示:这些人不用回

华人生活网
2026-05-26 02:34:53
“我真的一点声音没听见”,网约车司机在乘客走人后气懵:少看一眼,白跑半天车!

“我真的一点声音没听见”,网约车司机在乘客走人后气懵:少看一眼,白跑半天车!

用车指南
2026-05-25 10:01:30
张嘉译宁可赔千万也要换掉她,被半个娱乐圈封杀的李梦,如今怎样

张嘉译宁可赔千万也要换掉她,被半个娱乐圈封杀的李梦,如今怎样

琴琴有氧运动
2026-05-23 16:24:15
看了耿同学的打假 我去查了自然期刊的撤稿数 各国对比

看了耿同学的打假 我去查了自然期刊的撤稿数 各国对比

慕容律师
2026-05-25 11:56:06
一次补税超5亿,知名医院怎么了?

一次补税超5亿,知名医院怎么了?

中国新闻周刊
2026-05-24 22:21:38
在美国买了房,房子是你的不假一旦你无力负担房产税照样无家可归

在美国买了房,房子是你的不假一旦你无力负担房产税照样无家可归

忠于法纪
2025-12-23 21:02:38
张艺谋没想到,《主角》请9位陕西人压阵,风头却被3个外地人抢走

张艺谋没想到,《主角》请9位陕西人压阵,风头却被3个外地人抢走

白面书誏
2026-05-16 20:18:12
曼联学聪明了!放弃刮彩票!复刻库尼亚、姆贝莫神级引援

曼联学聪明了!放弃刮彩票!复刻库尼亚、姆贝莫神级引援

澜归序
2026-05-26 05:48:16
跑步跑多了,那方面是不是就不行啦?

跑步跑多了,那方面是不是就不行啦?

马拉松跑步健身
2026-05-25 17:16:09
越是上流人越“下流”?景甜又被爆出猛料,远比私密照抵债更炸裂

越是上流人越“下流”?景甜又被爆出猛料,远比私密照抵债更炸裂

好贤观史记
2026-05-23 16:51:25
数万人涌上塞尔维亚首都街头,人在中国的武契奇,早就留好了布局

数万人涌上塞尔维亚首都街头,人在中国的武契奇,早就留好了布局

这样子啊
2026-05-25 23:57:31
卡塔尔媒体:霍尔木兹海峡将分阶段开放

卡塔尔媒体:霍尔木兹海峡将分阶段开放

界面新闻
2026-05-25 19:22:35
一部讲阿嬷的电影,怎么就成“统战”了?

一部讲阿嬷的电影,怎么就成“统战”了?

李荣茂
2026-05-25 19:10:51
2026-05-26 07:16:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15305文章数 66889关注度
往期回顾 全部

科技要闻

华为:没有先进光刻机也能造出高端芯片

头条要闻

伊朗媒体披露最高领袖就医情况

头条要闻

伊朗媒体披露最高领袖就医情况

体育要闻

如果不好好守门,他可能早就继承家业了

娱乐要闻

李晨郑恺跑男停宣:12年元老被边缘化

财经要闻

起底煤矿“暗面”:假整改、假数据

汽车要闻

启境GT7定档5月29日预售 提供三电机版本

态度原创

旅游
教育
时尚
手机
军事航空

旅游要闻

一场市集打开文旅消费新空间

教育要闻

同伴太重要!一个大学宿舍的四名女生,考研全部上岸985

Bella的戛纳之旅,次次“神级”表现

手机要闻

iQOO 16再次被确认,规格信息都已清晰,REDMI能招架住吗?

军事要闻

俄军出动“榛树”导弹袭击乌克兰

无障碍浏览 进入关怀版