![]()
2016年,谷歌研究员第一次把BERT丢进知识图谱的测试集,想看看这个"会说话的盒子"能不能替代维基百科。8年过去,这个实验变成了全行业的执念——OpenAI、Meta、Anthropic每年烧掉上百亿美元,就为了证明大模型能记住比人脑更多的"事实"。
![]()
但问题是,这些"事实"会过期,而且LLM从不告诉你它过期了。2023年的一项测试里,GPT-4被问到"谷歌现任CEO是谁",有12%的概率回答"拉里·佩奇"——佩奇2019年就卸任了。更尴尬的是,模型对这类错误"置信度极高",仿佛在说"我确定以及肯定"。
![]()
研究者把这种幻觉比作"一个从不查资料的维基百科编辑":写得快,语气笃定,但参考资料可能来自十年前。论文作者之一在综述里写了一句很扎心的观察:「我们把语言模型训练成知识库,本质上是在用概率分布模拟确定性存储——这像用海绵吸水,然后抱怨它漏水。」
行业现在的解法堪称行为艺术。有人给模型外挂实时数据库(RAG),有人逼模型回答前"先想想"(Chain-of-Thought),还有人直接承认"我不知道"——但用户测试显示,承认无知的回答会让付费转化率下降23%。
最讽刺的细节藏在论文附录:测试人员发现,当问题涉及训练数据截止日期后的新事实时,模型的错误率会飙升,但它的"道歉频率"反而下降。换句话说,它越不懂,越装懂。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.