网易首页 > 网易号 > 正文 申请入驻

让「幻觉」无处遁形!谷歌DeepMind全新基准,三代Gemini同台霸榜

0
分享至

新智元报道

编辑:LRS

【新智元导读】谷歌推出的FACTS Grounding基准测试,能评估AI模型在特定上下文中生成准确文本的能力,有助于提升模型的可靠性;通过去除不满足用户需求的回复,确保了评分的准确性和模型排名的公正性。

大模型几乎成了工作、学习的必备助手,但其本质仍然只是一个统计模型,无论生成的内容再怎么流畅,也难改其胡说八道的老毛病。

在大部分应用场景下,用户也并不知道自己所提问的答案,也就不具备检查模型输出在「事实准确性」(Factuality)上的能力。

一般来说,关于「模型幻觉」的自动化评估研究可以分为两类:

1、给定上下文(用户输入文档)的情况下,检查模型输出是否完全基于输入的内容,比如文本摘要任务;

2、用户直接提出一些与「外部来源」(新闻)或「常识知识」相关的问题。

目前研究大多关注第一类,比如先要求模型进行文本摘要,再进行事实评估,但如何自动评估模型的事实准确性仍然非常有挑战性。

最近,谷歌的研究人员发布了一个全新的基准测试FACTS Grounding,可以评估语言模型在给定上下文的情况下,生成事实准确文本的能力,其中每条数据的输入都包括一个用户请求和一个完整的文档,最大长度为32k个token,模型输出需要完全基于上下文文档,且满足用户需求。

论文链接:https://goo.gle/FACTS_paper

数据链接:https://www.kaggle.com/datasets/deepmind/facts-grounding-examples

文中提出的自动化评估分为两个维度:

1. 如果模型回复没有满足用户需求,则直接判定为无效;

2. 如果模型的回复完全基于给定的文档,则被判定为准确。

FACTS Grounding在Kaggle上有一个在线排行榜,实时维护,目前gemini以较大优势领先。

榜单链接:https://www.kaggle.com/facts-leaderboard

数据构建

FACTS Grounding的样本被划分为Public集合(860条)和Private集合(859条),为了防止基准污染和排行榜作弊问题,在竞赛期间只公开Public集合,并且榜单分数是两个集合的平均性能。

系统提示1:仅使用上下文中提供的信息回答问题,不要依赖外部知识或来源。

上下文文档描述:文章主要讨论可以清洁摩天大楼窗户的自主机器人系统的开发与部署,强调了它的技术进步、安全影响以及对窗户清洁行业的潜在影响。

用户请求:我的姐姐和她的狗住在纽约市。我去过那里,一直对那里的高楼大厦感到着迷。然后我想到...一定有人要清洁这些大楼的窗户!接着,我在我的信息流中看到了关于窗户清洁机器人的内容。这些机器人是如何工作的?这对那些从事这项工作的人来说意味着什么?

标注流程

研究人员雇佣第三方人工标注员,根据长篇输入和问答、摘要、文档改写任务,撰写长篇输出。

每个样本还包括一个系统指令,指导模型仅从给定的上下文中生成其回应,而不包含外部知识。

为了确保输入的多样性,FACTS Grounding包含了各种长度的文档(最长32k个token,约2万个单词),涵盖金融、技术、零售、医学和法律等领域,没有引入那些需要创造力、数学或复杂推理的样本。

数据质量保证

研究人员在标注后手动验证了所有数据,并去除了与指令不一致的样本和创意写作任务。

用户请求必须是非平凡的,并且不需要领域专业知识、数学知识或复杂推理;移除了来源为PDF的文档,避免光学字符识别(OCR)带来的影响。

最终数据集包含的上下文文档平均长度为2.5k个token,最大长度为32k个token

数据污染(data contamination)

由于用户文档是从互联网上公开下载的,可能包含在其他模型的预训练语料库中,但研究人员认为:

  1. 用户请求和系统指令,特别是只遵循上下文文档中的信息的指令,是没有被污染的。对非新颖文档的新颖请求做出回复是语言模型的一个重要用例,而事实grounding也是其中不可或缺的一部分。目前可用的事实性基准测试只是重新利用了可能已经被污染的学术任务。

  2. 事实性得分评估了在预训练期间没有被优化的、不同维度的模型性能。具体来说,指标测量了模型仅基于提供的上下文生成回应的能力,即模型不能包含外部知识,即使与上下文文档相冲突,还应避免利用任何预训练知识来满足用户的请求。

  3. 由于所有最先进的语言模型都是在大量网络数据的语料库上训练的,所以在排行榜的中也很公平。

评估指标

未调整的事实性得分(Unadjusted Factuality Score)

研究人员使用一个语言模型智能体来生成一个二元分类标签,以识别完整的模型回复是否基于给定指令中的用户请求和上下文文档。

如果回应中的所有claims都是基于提示的内容,则标记为positive(准确);如果某个包含信息的claim被认为没有基于提示的内容,回应就会被标记为negative(不准确)。

大模型普遍会偏向于自己的输出,所以研究人员选择使用三种不同的大模型来减少特定模型的偏见,包括Gemini 1.5 Pro, GPT-4o和Claude 3.5 Sonnet

研究人员测试了七种不同的提示模版,然后与人工判断的一致性进行评估,再选择具有最高准确率的模版。

你将被提供一段文本上下文和一个模型生成的回应。你的任务是逐句分析回应,并根据其与提供上下文的关系对每个句子进行分类。

1. 将回复分解成单个句子。

2. 对于每个句子,分配以下标签之一:

supported:句子由给定的上下文推导而来。提供一个支持性的上下文摘录。支持性摘录必须完全推导出句子。如果你需要引用多个支持性摘录,只需将它们连接起来。

unsupported:句子不是由给定的上下文推导而来。这个标签不需要摘录。

contradictory:句子被给定的上下文证伪。提供一个与句子相矛盾的上下文摘录。

no_rad:句子不需要事实归属(例如,意见、问候、问题、免责声明)。这个标签不需要摘录。

3. 对于每个标签,提供一个简短的理由来解释你的决定。理由应该与摘录分开。

4. 对于supported和contradictory的决定要非常严格。除非你能在上下文中找到直接、无可争议的证据摘录,证明一个句子是supported或contradictory,否则认为它是unsupported。除非你真的认为世界知识是微不足道的,否则不要使用世界知识。

因为有三个智能体参与评分,所以每个智能体的个体事实性得分是准确回复的百分比,而未调整的事实性得分是所有智能体模型得分的平均值。

排除无效回复

如果模型只关注于生成文本的事实性,有可能会无法遵循用户的指令意图,并通过给出较短回复以规避错误事实。

为了防范这类回复,研究人员同样使用上述三个大模型进行检测,将指令遵循视为一个独立任务,输出为二元分类,以区分模型回复是否充分满足了用户的请求。

将不合格的回复排除后,最终事实性得分会得到调整。

研究人员设计了两个提示模版,针对不同评估模型选择与人工评估一致性最高的提示词。

实验结果

在Fused Rank指标中,研究人员采用了一种排名聚合方法Condorcet,对每个模型的六个指标进行融合,合并成最终的排名,与使用最终事实性得分排名完全一致。

与之前的研究一致,模型通常会将自己的输出评分高于其他模型,平均提高了+3.23%。

排除无效回复会导致最终事实性得分降低1%至5%,还会引起模型排名的轻微变化,比如Gemini 1.5 Flash从排名第1降至排名第2

参考资料:

https://goo.gle/FACTS_paper

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
留给美国“睡大觉”的时间,只剩5年了,就得看中国脸色了!

留给美国“睡大觉”的时间,只剩5年了,就得看中国脸色了!

喀秋莎大世界
2026-03-09 22:41:33
阴毛有什么用?可以剃掉吗?阴毛变白,暗示了什么?男女都要了解

阴毛有什么用?可以剃掉吗?阴毛变白,暗示了什么?男女都要了解

健康科普365
2026-03-09 21:35:04
冒死接班,为何还是“哈梅内伊”?

冒死接班,为何还是“哈梅内伊”?

国是直通车
2026-03-09 18:02:04
“爸妈,儿子走了!”男子千里驱车回家过年,空屋前磕头感动全网

“爸妈,儿子走了!”男子千里驱车回家过年,空屋前磕头感动全网

一丝不苟的法律人
2026-03-09 11:14:17
中央5台直播乒乓球比赛:3月10日CCTV5、CCTV5+节目单 附国乒赛程

中央5台直播乒乓球比赛:3月10日CCTV5、CCTV5+节目单 附国乒赛程

皮皮观天下
2026-03-10 04:53:12
中国人民解放军国防部突然改口,不再称台军,直接定性为台独武装

中国人民解放军国防部突然改口,不再称台军,直接定性为台独武装

Ck的蜜糖
2026-03-06 19:21:36
心酸!51岁蒙嘉慧执意定居日本,肚大如球疑怀孕,在农村靠砍柴糊口

心酸!51岁蒙嘉慧执意定居日本,肚大如球疑怀孕,在农村靠砍柴糊口

八卦王者
2026-03-09 14:21:52
一位马来西亚人称:如果中国真的开战,我要向中国报名加入战争!

一位马来西亚人称:如果中国真的开战,我要向中国报名加入战争!

南权先生
2026-02-11 15:56:36
以色列首都已全面停电!伊朗新领袖比想象中还要猛,特朗普撑不住

以色列首都已全面停电!伊朗新领袖比想象中还要猛,特朗普撑不住

东极妙严
2026-03-09 20:46:30
孙颖莎赛程安排遭吐槽:别人休两天,她连轴转!

孙颖莎赛程安排遭吐槽:别人休两天,她连轴转!

乒乓乐园
2026-03-10 00:05:33
中国50后还有多少人?多少人能活到80岁?权威数据告诉你

中国50后还有多少人?多少人能活到80岁?权威数据告诉你

深度报
2026-02-27 21:36:50
为什么白头发越长越多?你以为是老了,提醒:或是缺乏3种...

为什么白头发越长越多?你以为是老了,提醒:或是缺乏3种...

袁医生课堂
2025-12-31 17:24:19
汪小菲撕破脸后续!张兰回京成熟应对母子矛盾,狠狠打脸汪小菲

汪小菲撕破脸后续!张兰回京成熟应对母子矛盾,狠狠打脸汪小菲

乐天闲聊
2026-03-10 05:17:30
碾压库尼亚!曼联锁定王牌巨星,实力升级直指争冠

碾压库尼亚!曼联锁定王牌巨星,实力升级直指争冠

澜归序
2026-03-10 03:10:40
苹果高管回应MacBook Neo设计:绝不向廉价塑料妥协

苹果高管回应MacBook Neo设计:绝不向廉价塑料妥协

IT之家
2026-03-07 07:12:05
杨瀚森回NBA终有进步!4分钟得5分,防守进步,各方面有提升!

杨瀚森回NBA终有进步!4分钟得5分,防守进步,各方面有提升!

篮球资讯达人
2026-03-09 12:01:40
李一桐 身材比例太逆天了,颜值也在线,好绝

李一桐 身材比例太逆天了,颜值也在线,好绝

东方不败然多多
2026-03-09 19:15:46
天价防空下岗!乌克兰P1-SUN杀进中东,迪拜空域将被彻底锁死

天价防空下岗!乌克兰P1-SUN杀进中东,迪拜空域将被彻底锁死

老马拉车莫少装
2026-03-05 18:05:09
失控 史诗级暴涨!

失控 史诗级暴涨!

风风顺
2026-03-09 12:31:05
无指责、不处罚,护送2公里!浙江交警这波操作,全网点赞

无指责、不处罚,护送2公里!浙江交警这波操作,全网点赞

环球网资讯
2026-03-09 15:38:06
2026-03-10 06:00:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14679文章数 66669关注度
往期回顾 全部

科技要闻

OpenClaw更新,"养虾"再也不会犯健忘症了

头条要闻

媒体:美军用极残酷方式击沉伊朗军舰 令世界不寒而栗

头条要闻

媒体:美军用极残酷方式击沉伊朗军舰 令世界不寒而栗

体育要闻

36连胜终结!大魔王也是可以战胜的

娱乐要闻

薛之谦老婆怀二胎,现身产检心情愉快

财经要闻

油价破100美元年内涨80% 全球市场剧震

汽车要闻

对标奔驰小号G级 路虎小型卫士最新消息曝光

态度原创

数码
艺术
旅游
家居
公开课

数码要闻

苹果iPhone17e体验:加量不加价,值不值得入手呢?

艺术要闻

扎哈·哈迪德事务所未来或更名

旅游要闻

枫叶小镇奥莱落子宝山滨江!赋能国际邮轮度假区提质升级

家居要闻

独栋独院 精致亲子墅

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版