上方蓝字关注我们
Google DeepMind的最新研究提出了SAFE,一种创新的长篇幅事实性评估方法,通过利用LLMs自动分解和验证事实,显著提高了评估的准确性和效率。该方法在多种模型上进行了测试,证明了其在提高长篇内容准确性方面的有效性,为AI领域带来了新的评估标准。
在人工智能领域,大型语言模型(LLMs)的发展已经达到了一个令人瞩目的阶段。这些模型在多种任务中展现出了卓越的性能,从文本生成到问题解答,它们的能力不断突破着我们的认知边界。然而,随着这些模型在实际应用中的广泛使用,它们在生成内容的准确性方面也面临着挑战。尤其是在需要长篇回答的场景中,如何确保生成的内容不仅流畅自然,而且事实准确,成为了一个亟待解决的问题。
Google DeepMind的研究团队在最新的论文《大型语言模型中的长篇事实核查》中,针对这一问题提出了创新的解决方案。该论文通过深入分析和研究,不仅揭示了现有LLMs在长篇幅事实性方面的不足,而且提出了一种新的评估方法和度量标准,为未来的研究和模型开发指明了方向。
Google DeepMind 研究小组的最新研究显示,人工智能系统在评估大型语言模型产生信息的准确性方面,能够胜过人类事实核查员。
这篇发表在预印本平台 arXiv 上的论文中,研究团队首先利用GPT-4生成了一个名为LongFact的提示集,该集合包含了跨越38个主题的数千个问题。这些提示旨在引导模型生成长篇的回答,从而测试其在处理复杂、多方面信息时的准确性。这一步骤是至关重要的,因为它为评估模型的长篇幅事实性提供了一个全面的基准。
为了解决长篇幅回答的评估难题,论文提出了一种名为 Search-Augmented Factuality Evaluator (SAFE) 的新技术。SAFE 通过大型语言模型将长篇幅文本分解为单独的事实,并利用 Google 搜索结果来判断每个事实的真实性。
“SAFE 利用大型语言模型将长篇回答分解为单个事实,并通过发送搜索查询到 Google 并判断事实是否得到搜索结果支持的多步推理过程来评估每个事实的准确性,”研究者解释道。
这种方法的关键在于,它不仅考虑了单个事实的准确性,而且还考虑了这些事实在整体上下文中的相关性。
“超人类”表现引发讨论
研究者将 SAFE 与人类核查员在一个包含约 16,000 个事实的数据集上进行了比较,结果表明 SAFE 的评估与人类评分相符的比例达到 72%。更引人注目的是,在 SAFE 与人类评分员的 100 个分歧案例中,SAFE 正确判断的比率达到了 76%。
尽管论文声称“大型语言模型代理能够达到超人类的评价表现”,但一些专家对“超人类”一词的含义提出了质疑。
著名 AI 研究者 Gary Marcus 在 Twitter 上提出,在这种情况下,“超人类”可能仅仅意味着“比低薪的众包工作者做得更好,而不是真正的人类事实核查员”。
“这种说法具有误导性,”他说。“就像说1985年的国际象棋软件超越了人类一样。”
Marcus 的观点很有道理。要真正证明超人类的表现,SAFE 应该与专家级人类事实核查员进行比较,而不仅仅是众包工作者。了解人类评分员的资质、报酬和核查流程对于正确解读研究结果至关重要。
成本效益和顶级模型的基准测试
SAFE 的一个明显优势在于成本——研究显示,使用 AI 系统的成本大约是人类事实核查员的二十分之一。随着语言模型产生信息量的不断增加,拥有一种经济且可扩展的验证方法变得尤为重要。
DeepMind 团队利用 SAFE 对 13 个顶级语言模型(包括 Gemini、GPT、Claude 和 PaLM-2 四个系列)进行了事实准确性评估,并在新的基准测试 LongFact 上进行了测试。结果表明,规模更大的模型通常犯下的事实错误较少。
然而,即使是表现最佳的模型也产生了大量虚假陈述。这提醒我们不应过度依赖那些能够流畅表达不准确信息的语言模型。像 SAFE 这样的自动事实核查工具在降低这些风险方面可能发挥关键作用。
随着科技巨头们争相开发更强大的语言模型,用于搜索到虚拟助手等多种应用,自动事实核查的能力显得尤为关键。SAFE 这样的工具是建立新的信任和问责机制的重要一步。
总的来说,这篇论文不仅为我们提供了一个强大的工具来评估和改进LLMs的长篇幅事实性,而且还为我们提供了深入理解这些模型在处理复杂信息时的能力和局限的机会。随着人工智能技术的不断进步,我们期待未来的研究能够在这一基础上,进一步推动LLMs的发展,使它们在真实世界的应用中更加可靠和有用。
论文地址:arxiv.org/abs/2403.18802
已有超过2000名
读者加入交流群
我们还在等你
点这里关注我,记得标星哦~
CLICK TO SEE YOU LOOK THE BEST
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.