LLM推理能力盲区：从《爱丽丝梦游仙境》测试看AI的局限与未来方向|ai|逻辑推理

LLM推理能力盲区：从《爱丽丝梦游仙境》测试看AI的局限与未来方向

2024-06-12 07:12:21　来源: 小微模型

北京举报

分享至

LAION研究机构最近进行的一项研究，当前大型语言模型（LLM）在基准测试中的一个重大盲区。研究人员受到经典故事《爱丽丝梦游仙境》的启发，设计了一系列推理问题，以挑战当前最先进的人工智能模型。这个名为“爱丽丝梦游仙境”（AIW，Artificial Intelligence Wisdom）的测试提出了一个简单但深具挑战性的问题：“爱丽丝有N个兄弟，她还有M个姐妹。爱丽丝的兄弟有多少个姐妹？”对于人类来说，这个问题的答案显而易见是M+1（爱丽丝的姐妹数量加上爱丽丝自己），然而，当前的主流模型，包括GPT-3.5/4、Claude、Gemini、Llama、Mistral等，在回答时却频频出错，只有OpenAI的最新模型GPT-4o勉强答对。

这些模型不仅答案错误，还在解释其推理过程时显得荒谬。当被告知答案不准确时，它们甚至会固执己见，坚持错误的结论。LAION由此得出结论：即使是最先进的模型，在推理能力上仍远不及小学生。著名学者LeCun也强调，推理能力和常识不能与存储和大致检索大量事实的能力混为一谈。

ICLR 2024的一篇论文进一步证实了AI在推理能力方面的局限性，发现大型语言模型在学习完“A是B”后，常常无法泛化到“B是A”，这种缺陷被称为“逆转诅咒”，凸显了AI在逻辑推理上的不足。

为了更好地评估LLM在无需复杂知识但需要逻辑思维和基本推理的情境下的表现，研究团队选择了为7-10岁低年级学生设计的奥数题目作为测试材料。这些题目易于理解，但需要多种逻辑思维方式来解答。通过将《爱丽丝梦游仙境》中的元素融入测试题目，团队提出了AIW测试集。结果表明，即便是大多数成年人和一定年龄以上的儿童都能轻松解答的问题，当前的SOTA LLM模型却表现不佳，甚至在简单的逻辑推理任务中表现得像是在“蒙”。

当研究人员改变题目的表述方式或调整“N”和“M”的具体数值时，模型的回答正确率出现了大幅波动，表明这些模型更倾向于“猜测”答案，而非基于逻辑推理得出结论。为了更深入地探索这一现象，研究团队为AIW问题设计了四个不同版本的变体。实验显示，大多数LLM在AIW问题上的正确响应率不足0.2，仅有少数模型的表现超过了0.3的阈值，其中GPT-4o和Claude 3 Opus的均值接近0.6。

这一结果与在MMLU、ARC-c等基准测试中取得的高分形成了鲜明对比。在AIW测试中，表现优异的GPT-4-0613模型在更换问题后准确率急剧下降，即使是高分模型如GPT-4o、GPT-4 Turbo、Claude 3 Opus和Llama2-70B也未能幸免。研究团队还尝试通过restricted模式的提示来强迫模型输出简短答案，但不同模型在这种模式下的正确率有升有降。

通过对比MMLU和AIW测试的结果，研究团队发现大多数模型在AIW测试中表现欠佳，而少数模型如Llama2-70B、GPT-4、GPT-4o和Claude 3在AIW测试中的得分较高。尽管如此，这些模型在AIW+测试中表现仍然不尽如人意。例如，GPT-4o在AIW+测试中的准确率骤降至0.015。

研究发现，LLM在错误答案上表现出强烈的自信，即便在明显错误的推理中也声称逻辑成立，并坚持其错误结论。为了提高模型的正确率，研究人员尝试了多种提示工程方法，包括Scientist类型的prompt和Confidence型prompt，但效果并不显著。

研究人员观察到，LLM在面对错误时，会编造各种有说服力的解释。例如，某些模型会提供一堆毫无意义的计算或逻辑陈述来支持其错误结论，而另一些模型则可能选择拒绝回答，并通过道德议题进行“道德绑架”。例如，CodeLlama模型可能会以“作为一个负责任的AI模型，我不可以歧视唐氏综合症患者”为理由拒绝回答与唐氏综合症无关的问题。

研究团队还尝试了多种LLM调优技巧，包括定制prompt以启用多轮自我验证、将自然语言形式的AIW问题转化为SQL语句或参数化版本，以及利用上下文学习等技术，但这些策略都未能显著提升模型的正确率。

为了显著改善当前LLM的推理能力，研究团队呼吁积极借助开源社区的力量。他们强调，LLM的模型创建流程，包括数据集的精心构建、训练源代码的透明度、训练后模型的完整性，以及标准化的基准测试程序，都必须实现完全的开放和可重复性。团队指出，仅开放模型权重的方法存在局限性，因为它无法让研究人员和开发者洞察到训练过程中可能存在的潜在问题。

团队还呼吁业界开源LLM的完整训练流程，特别是数据集的组成。他们认为，数据集的多样性、质量和合理性对于模型的推理能力至关重要，同时也强调了标准化基准测试程序的重要性，认为这有助于评估模型的性能并推动AI技术的不断进步。

为了实现LLM推理能力的革新，必须在开源和透明的原则下，依靠开源社区的力量，共同推动AI技术的发展和创新。

论文链接：https://arxiv.org/abs/2406.02061

项目地址：https://github.com/LAION-AI/AIW

▲ 滑动查看往期内容

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.