品玩9月8日讯,据OpenAI发布研究指出,语言模型产生幻觉的核心原因,是现有训练与评估机制鼓励模型猜测而非承认不确定性。
实验显示,当被问及学者Adam Tauman Kalai的博士论文标题及生日时,某聊天机器人多次给出错误答案。研究认为,当前评估多以准确率为唯一标准,类似多选题中猜答案可能得分,说“不知道”则得零分,导致模型倾向冒险猜测。如SimpleQA测试中,o4-mini模型准确率略高,但错误率达75%,远高于选择“弃权”的gpt-5-thinking-mini模型。
OpenAI建议改革评分机制,对自信错误加重惩罚,为合理表达不确定性提供部分得分,并强调小模型也能通过“自知之明”减少幻觉,其最新模型已降低幻觉率。
![]()
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.