据悉,苹果公司此前发表论文质疑大型推理模型(如DeepSeek-R1、Claude-3.7等)在复杂度阈值以上推理能力崩溃,认为这些模型只是在进行模式匹配而非真正推理。然而,来自Open Philanthropy的研究员A. Lawsen以Claude Opus为第一作者发表反驳论文,指出苹果团队的结论存在多处问题:一是实验设计的物理令牌限制导致模型输出崩溃;二是程序化评估忽略了模型对无解问题的正确识别;三是汉诺塔等谜题的复杂性度量方法不合理。Claude团队还通过实验表明,模型在摆脱详尽枚举要求后仍能正确实现递归算法,证明其推理能力并未崩溃。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.