AI思考只是幻觉?
苹果近日发布研究论文,指出当前大模型(如DeepSeek、o3-mini、Claude 3.7)并未真正“思考”,本质上只是复杂的“模式匹配”,所谓思考是种假象。
论文批评现有评估方式只关注结果正确与否,忽视了中间推理过程的质量,如逻辑一致性与是否绕弯等问题。
为更准确评估模型推理能力,苹果设计了4类可控难度的谜题:汉诺塔、跳棋交换、过河问题和积木世界。
研究发现,模型在面对更难题目时,思考深度不增反降,即使Token充足也选择“放弃思考”;当复杂度超过阈值,模型准确率崩盘至零。
网友对此褒贬不一,有人批评苹果落后却贬低他人,也有人认为这是对更合理推理评估标准的呼吁。
好吧,我来问问gpt试试
deepeek则是这么说
One More News
【美国航空还在用Windows 95】
美国联邦航空管理局(FAA)近日宣布,将全面升级老旧的空中交通管制(ATC)系统,以应对日益繁忙的空中交通。
据NPR报道,目前许多塔台仍使用软盘、纸条和运行Windows 95的电脑。虽然这让系统躲过了如CrowdStrike宕机事件的影响,但也暴露其严重老化。
FAA表示,目标是彻底淘汰这些过时技术。美国交通部称,这是数十年来最重要的基础设施项目之一。
不过升级并不简单,部分关键系统因安全原因无法停机替换,新系统也必须具备强大的防黑能力,以防国家安全遭受威胁。
FAA计划在未来四年内完成系统更换
【小米 SU7 Ultra 汽车将登陆游戏《GT 赛车 7》】
小米SU7 Ultra打破欧美日垄断,成为28年来《GT赛车》首款入驻的中国车。
据说这次不是我们找上门,而是《GT赛车7》的山内一志主动邀请,他说自己被SU7 Ultra在纽北的表现惊艳到,原本不看好电动车能跑赛道,结果一试驾立马改观:“就是这车让我真正认识到中国汽车的实力!”
他还说未来会考虑加入中国赛道
【全球首个满级 QQ 诞生】
6月7日消息,腾讯公众号发文宣布,全球首位 QQ 256 级用户今日诞生,其升级成功解锁了一个全新的 QQ 等级图标“时光企鹅”(旧版本 QQ 显示为 4 个皇冠)。
QQ 昵称为 “ 爱芥末 ” 的用户,成为了全球拥有“时光企鹅”等级图标的第一人。腾讯 QQ 等级图标中,四个星星可凑成一个月亮,四个月亮可凑成一个太阳,以此类推。
你几级呢朋友?
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.