![]()
大语言模型最大的问题,可能不是它不够聪明,而是它太想得分了。
不是AI变坏了,是规则在奖励说谎。
![]()
"幻觉"这个词在AI圈子里被说烂了,但它描述的现象仍然令人头疼。大语言模型在面对不确定的问题时,不会说"我不知道",而是用一种自信流利的语气给出一个听起来专业、实际上完全错误的答案。
![]()
罕见事实,就是大语言模型的天然盲区。
但更严重、也更可以被改变的问题,藏在评估环节里。
OpenAI的团队系统分析了当前主流的大语言模型基准测试,发现几乎所有评估都采用一套简单粗暴的二元评分逻辑:答对得1分,答错或放弃作答得0分。
这套逻辑在数学上产生了一个明确的激励:对于任何一道不确定的题目,猜测都是理性选择,因为猜测至少有机会得分,而放弃永远是零分。一个在不确定时选择诚实沉默的模型,在排行榜上会系统性地输给一个不管三七二十一全部猜答案的模型。
这是一个荒谬但真实存在的悖论:评估体系在奖励更危险的行为。
但研究团队强调,仅仅在现有体系旁边加几项新的"反幻觉测试"并不够用,真正需要改变的是那些被广泛使用的主流评估体系本身。只要核心评分机制还在奖励幸运猜测,模型就会持续强化猜测行为,无论研究者在减少幻觉的技术方向上做出多少努力,都会被评估规则的激励效应悄悄抵消掉。
如何评估AI,决定了AI如何行为。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.