网易首页 > 网易号 > 正文 申请入驻

人工审核即将被淘汰? 谷歌“超人”AI不仅准确还便宜20倍!

0
分享至

上方蓝字关注我们


Google DeepMind的最新研究提出了SAFE,一种创新的长篇幅事实性评估方法,通过利用LLMs自动分解和验证事实,显著提高了评估的准确性和效率。该方法在多种模型上进行了测试,证明了其在提高长篇内容准确性方面的有效性,为AI领域带来了新的评估标准。

在人工智能领域,大型语言模型(LLMs)的发展已经达到了一个令人瞩目的阶段。这些模型在多种任务中展现出了卓越的性能,从文本生成到问题解答,它们的能力不断突破着我们的认知边界。然而,随着这些模型在实际应用中的广泛使用,它们在生成内容的准确性方面也面临着挑战。尤其是在需要长篇回答的场景中,如何确保生成的内容不仅流畅自然,而且事实准确,成为了一个亟待解决的问题。

Google DeepMind的研究团队在最新的论文《大型语言模型中的长篇事实核查》中,针对这一问题提出了创新的解决方案。该论文通过深入分析和研究,不仅揭示了现有LLMs在长篇幅事实性方面的不足,而且提出了一种新的评估方法和度量标准,为未来的研究和模型开发指明了方向。

Google DeepMind 研究小组的最新研究显示,人工智能系统在评估大型语言模型产生信息的准确性方面,能够胜过人类事实核查员。

这篇发表在预印本平台 arXiv 上的论文中,研究团队首先利用GPT-4生成了一个名为LongFact的提示集,该集合包含了跨越38个主题的数千个问题。这些提示旨在引导模型生成长篇的回答,从而测试其在处理复杂、多方面信息时的准确性。这一步骤是至关重要的,因为它为评估模型的长篇幅事实性提供了一个全面的基准。

为了解决长篇幅回答的评估难题,论文提出了一种名为 Search-Augmented Factuality Evaluator (SAFE) 的新技术。SAFE 通过大型语言模型将长篇幅文本分解为单独的事实,并利用 Google 搜索结果来判断每个事实的真实性。

“SAFE 利用大型语言模型将长篇回答分解为单个事实,并通过发送搜索查询到 Google 并判断事实是否得到搜索结果支持的多步推理过程来评估每个事实的准确性,”研究者解释道。


这种方法的关键在于,它不仅考虑了单个事实的准确性,而且还考虑了这些事实在整体上下文中的相关性。

“超人类”表现引发讨论

研究者将 SAFE 与人类核查员在一个包含约 16,000 个事实的数据集上进行了比较,结果表明 SAFE 的评估与人类评分相符的比例达到 72%。更引人注目的是,在 SAFE 与人类评分员的 100 个分歧案例中,SAFE 正确判断的比率达到了 76%。


尽管论文声称“大型语言模型代理能够达到超人类的评价表现”,但一些专家对“超人类”一词的含义提出了质疑。

著名 AI 研究者 Gary Marcus 在 Twitter 上提出,在这种情况下,“超人类”可能仅仅意味着“比低薪的众包工作者做得更好,而不是真正的人类事实核查员”。

“这种说法具有误导性,”他说。“就像说1985年的国际象棋软件超越了人类一样。”

Marcus 的观点很有道理。要真正证明超人类的表现,SAFE 应该与专家级人类事实核查员进行比较,而不仅仅是众包工作者。了解人类评分员的资质、报酬和核查流程对于正确解读研究结果至关重要。

成本效益和顶级模型的基准测试

SAFE 的一个明显优势在于成本——研究显示,使用 AI 系统的成本大约是人类事实核查员的二十分之一。随着语言模型产生信息量的不断增加,拥有一种经济且可扩展的验证方法变得尤为重要。

DeepMind 团队利用 SAFE 对 13 个顶级语言模型(包括 Gemini、GPT、Claude 和 PaLM-2 四个系列)进行了事实准确性评估,并在新的基准测试 LongFact 上进行了测试。结果表明,规模更大的模型通常犯下的事实错误较少。


然而,即使是表现最佳的模型也产生了大量虚假陈述。这提醒我们不应过度依赖那些能够流畅表达不准确信息的语言模型。像 SAFE 这样的自动事实核查工具在降低这些风险方面可能发挥关键作用。

随着科技巨头们争相开发更强大的语言模型,用于搜索到虚拟助手等多种应用,自动事实核查的能力显得尤为关键。SAFE 这样的工具是建立新的信任和问责机制的重要一步。

总的来说,这篇论文不仅为我们提供了一个强大的工具来评估和改进LLMs的长篇幅事实性,而且还为我们提供了深入理解这些模型在处理复杂信息时的能力和局限的机会。随着人工智能技术的不断进步,我们期待未来的研究能够在这一基础上,进一步推动LLMs的发展,使它们在真实世界的应用中更加可靠和有用。

论文地址:arxiv.org/abs/2403.18802

已有超过2000名

读者加入交流群

我们还在等你

点这里关注我,记得标星哦~

CLICK TO SEE YOU LOOK THE BEST

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
胡歌骑28自行车买包子被拍,冻龄男神私下竟如此接地气!

胡歌骑28自行车买包子被拍,冻龄男神私下竟如此接地气!

明星爆料客
2024-04-25 15:09:49
张本兄妹被中国淘汰,谁注意张本父亲反应,对樊振东称呼改变有趣

张本兄妹被中国淘汰,谁注意张本父亲反应,对樊振东称呼改变有趣

东球弟
2024-04-24 16:07:34
董宇辉不应该再去出外景了,这点估计俞敏洪都没想到!

董宇辉不应该再去出外景了,这点估计俞敏洪都没想到!

谈芯说科技
2024-04-27 19:32:24
4月25日俄乌最新:拜登和苏纳克的战略忽悠

4月25日俄乌最新:拜登和苏纳克的战略忽悠

西楼饮月
2024-04-25 14:30:03
高考重大改革!“985”、“211”时代终结,“101计划”时代全面到来!

高考重大改革!“985”、“211”时代终结,“101计划”时代全面到来!

创作者_1494406553502
2024-04-26 15:20:11
处长可为所欲为?盐城发改委90后处长睡人妻下属,聊天记录被爆​

处长可为所欲为?盐城发改委90后处长睡人妻下属,聊天记录被爆​

三月柳
2024-04-27 14:34:50
人美灯大,岛国片中成熟妈妈型的女演员,模特级别的身材

人美灯大,岛国片中成熟妈妈型的女演员,模特级别的身材

不二砖家
2024-04-27 23:35:23
男生阳气被偷走的8个行为

男生阳气被偷走的8个行为

荷兰豆爱健康
2024-04-27 17:15:30
记者:张康阳应尽快宣布再融资消息,拖得越久情况就越糟糕

记者:张康阳应尽快宣布再融资消息,拖得越久情况就越糟糕

直播吧
2024-04-28 08:07:10
媒体:美国瞄准在战争中帮助俄罗斯的中国银行

媒体:美国瞄准在战争中帮助俄罗斯的中国银行

老马拉车莫少装
2024-04-23 23:50:07
西班牙女网红,印度行悲惨遭遇后续!

西班牙女网红,印度行悲惨遭遇后续!

奇葩游戏酱
2024-04-28 08:08:49
Marks:我不会给杰伦-格林5年2.25亿的报价 5年1.6亿比较合理

Marks:我不会给杰伦-格林5年2.25亿的报价 5年1.6亿比较合理

直播吧
2024-04-28 09:00:15
几年前都以为这5人能统治NBA,现在看来,我们都错了

几年前都以为这5人能统治NBA,现在看来,我们都错了

刺头体育
2024-04-25 02:43:35
久保建英:我那进球在欧冠不会被吹 看了比赛都知道我们配得上赢

久保建英:我那进球在欧冠不会被吹 看了比赛都知道我们配得上赢

直播吧
2024-04-27 11:54:24
叶光富出身贫寒,妻子李璇大方得体出身军人世家,如今,儿女双全

叶光富出身贫寒,妻子李璇大方得体出身军人世家,如今,儿女双全

追忆十六年
2024-04-28 06:27:27
不是阿兰也不是艾克森!武磊力荐两人在中泰之战顶替他,让人意外

不是阿兰也不是艾克森!武磊力荐两人在中泰之战顶替他,让人意外

罗掌柜体育
2024-04-27 15:18:05
6比4和6比3横扫劲敌!亚洲一姐火力强,网友:郑钦文被拉开差距

6比4和6比3横扫劲敌!亚洲一姐火力强,网友:郑钦文被拉开差距

体坛知识分子
2024-04-28 06:25:03
章子怡突然高调宣布喜讯!这个瓜,整个娱乐圈都羡慕不来的

章子怡突然高调宣布喜讯!这个瓜,整个娱乐圈都羡慕不来的

欢欢姐爱音乐
2024-04-26 09:35:29
重庆一19岁女生称被舞蹈老师压断腿致十级伤残 涉事培训学校:在走司法程序,绝不回避责任

重庆一19岁女生称被舞蹈老师压断腿致十级伤残 涉事培训学校:在走司法程序,绝不回避责任

红星新闻
2024-04-27 15:33:11
笑麻了!B太青岛大家一看一个不吱声,我却笑死在本地人的评论区

笑麻了!B太青岛大家一看一个不吱声,我却笑死在本地人的评论区

据说说娱乐
2024-04-27 22:27:22
2024-04-28 11:08:49
AI范儿
AI范儿
AI范儿是一个专注于人工智能领域的资讯和学习平台,提供最新的人工智能资讯
92文章数 8关注度
往期回顾 全部

科技要闻

股价历史性暴跌,英特尔怎么了?

头条要闻

越南"四驾马车"再损一将 媒体:阮富仲仍牢牢掌控局势

头条要闻

越南"四驾马车"再损一将 媒体:阮富仲仍牢牢掌控局势

体育要闻

一场2-2,改变2队命运!埃梅里神了

娱乐要闻

张杰谢娜发文为何炅庆生,亲如家人!

财经要闻

美国,突发爆雷!

汽车要闻

5月上市/智能化丰富 海狮 07EV正式到店

态度原创

艺术
健康
家居
数码
公开课

艺术要闻

画廊周北京迎来第八年, “漂留” 主题聚集 30 余家艺术机构与 40 场展览

这2种水果可降低高血压死亡风险

家居要闻

光影之间 空间暖意打造生活律动

数码要闻

苹果Vision Pro在美国二手交易平台大幅折价

公开课

睡前进食会让你发胖吗?

无障碍浏览 进入关怀版