网易首页 > 网易科技 > 网易科技 > 正文

苹果掀桌,炮轰大模型"不会思考",是真急了还是真懂了?

0
分享至
核心提示
  • 01 苹果公司发布题为《思考的幻觉》的研究报告,通过系统性实验证明,当前顶尖的大型推理模型(LRM)本质上是精密的模式匹配机器,缺乏真正的认知与推理能力,在面对新颖或复杂的逻辑任务时表现不佳甚至会“瘫痪”。
  • 02 该研究为“AI雄辩不等于智慧”提供了科学佐证,揭示了仅靠扩大模型规模和算力可能无法实现通用人工智能(AGI)。这一发现有助于用户理解AI能力边界,并促使业界重新审视当前大语言模型的技术路径与真实能力。
  • 03 此研究发布于全球AI竞赛白热化、行业对AGI实现路径争论不休的背景下。它为“审慎派”提供了强力论据,挑战了当前主流技术路径。然而,亦有观点质疑苹果的动机,认为在竞争中相对落后的苹果此举有“酸葡萄”心理,使这场技术路线之争更添博弈色彩。

6月12日消息,人工智能光鲜亮丽的外表令世人目眩神迷,大语言模型生成的对答文采斐然,看似与人类思维无异。然而在光鲜的外表之下,苹果公司的最新研究清晰揭示出这样一个令人不安的现实:雄辩不等于智慧,模仿也绝非理解。

苹果公司这项新研究题为《思考的幻觉》(The Illusion of Thinking),在人工智能学界掀起轩然大波。研究表明,即便是最顶尖的推理模型本质上也缺乏真正的认知能力。这一发现,印证了Facebook母公司Meta首席AI科学家杨立昆(Yann LeCun)等知名学者多年来所坚持的观点:当前人工智能系统只是精密的“模式匹配机器”,而非能够思考的实体。

人工智能的巨大幻象

苹果研究团队的研究过程具备系统性,结果则具备颠覆性。他们创建了可控的解谜环境,在保持逻辑一致性的前提下,能精确调整任务复杂度,从而揭示出大型推理模型(LRM)在三种不同难度下的表现。

研究发现,标准模型在低复杂度任务中的表现竟优于那些本应更强大的推理模型。而在中等复杂度任务中, 额外的“思考”过程带来的效果增量微乎其微。在面对高复杂度任务时,两种模型都彻底“瘫痪”。

更引人注目的是研究人员观察到的反直觉“规模效应”。按理说真正的智能在面对更复杂的问题时,能力应该会随之提升,但这些模型反而呈现出一种怪异模式:即便算力充足,其推理“努力程度”在达到某个临界点后仍会急剧下降。这表明模型根本没有真正进行推理;它们只是在沿用已习得的模式,一旦遇到新颖挑战便不知从何下手。

这项研究暴露出当前模型在精确计算方面的根本局限:它们无法运用明确算法,并且在面对类似谜题时推理逻辑不一致。当那层华丽的语言外衣被剥去,剩下的不过是精致却空洞的思维模仿。

专家看法

苹果的这一研究结果让专家们开始质疑当前人工智能能力的深度以及该领域未来的发展路径。IBM技术内容经理阿什·米尼亚斯(Ash Minhas)表示:“这篇论文从根本上证明了大型语言模型无法进行推理。它们只是在进行模式匹配。”他补充说,这项研究的结果凸显出“弱人工智能”与“通用人工智能”之间的区别,明确了当前大语言模型是弱人工智能。

OpenAI前董事会成员、乔治城大学安全与新兴技术中心战略总监海伦·托纳(Helen Toner)最近在美国参议院司法小组委员会作证时就表示:“据我所知,公众和圈内人士对人工智能的最大落差主要来自少数几家致力于开发’通用人工智能’的公司内部。”她说,像OpenAI、谷歌和Anthropic等顶尖人工智能公司正将构建通用人工智能视为“完全严肃的目标”。

有不少专家认为,通用人工智能远未成为现实。正如米尼亚斯所言,“这篇论文强调我们仍处于弱人工智能阶段,离通用人工智能还很远。”

“仅靠Transformer架构不足以实现推理,”米尼亚斯总结道,“要获得真正的推理能力,模型架构必须迎来新的突破。”

美国学者加里·马库斯(Gary Marcus)一直是人工智能模型能力的主要审慎派代表,他形容苹果的研究“相当具有颠覆性”。

马库斯在个人专栏中补充道,这些发现对当前竞相开发通用人工智能提出了疑问。在谈及支撑着ChatGPT等工具的大语言模型时,马库斯写道:“任何人如果认为大语言模型是通往那种能够从根本上改善社会的通用人工智能的直接路径,那都是在自欺欺人。”

英国萨里大学以人为本人工智能研究所的安德鲁·罗戈伊斯基(Andrew Rogoyski)表示,苹果论文标志着整个行业在通用人工智能领域“仍在摸索前行”,并且当前方法可能已经走入一条“死胡同”。

他说:“研究发现大型推理模型在复杂问题上会‘失去方向’,而在中低复杂度问题上表现良好,这意味着我们当前所采用的方法可能陷入了一个潜在的僵局。”

这些发现也与杨立昆等顶尖专家多年来发出的警告不谋而合。杨立昆一直坚称,五年内现有的语言模型基本上都会被淘汰,这并非因为有了更好的版本,而是因为这条实现路径存在根本缺陷。

但也有人质疑苹果的研究结果和动机。科技类咨询资深撰稿人克里斯·史密斯(Chris Smith)就认为苹果明显有“吃不到葡萄说葡萄酸”的意味。史密斯说,毕竟“苹果智能”远落后于ChatGPT、Gemini以及其他主流人工智能模型,推理模型方面更是毫无建树。Siri甚至连现在是几月份都说不清楚。

史密斯表示,这项研究发布的时间点也令人质疑。当时苹果即将举办2025年全球开发者大会,而人工智能并非会上主要焦点。苹果在已经发布商业推理模型的OpenAI、谷歌以及其他人工智能公司面前,仍然处于落后地位。而在大会前夕看到苹果贬低推理模型,确实感觉有些奇怪。

史密斯还认为,这项研究的发现很重要,相信其他人会尝试验证或挑战这些发现。甚至有些人可能会利用这些见解来改进自己的推理模型。他说,自己作为一名ChatGPT用户,即使推理模型无法真正思考,也不会放弃使用。譬如ChatGPT o3虽然会犯错,也会出现幻觉,但它的“推理”能力仍然感觉比基础大语言模型更强。

基准测试亟待改进

苹果论文也强调了人工智能行业需要更可靠的基准测试。米尼亚斯认为,当前的基准测试问题存在缺陷,因为模型可以通过模式匹配而非真正的推理来解决它们。他说:“如果基准测试是基于真正的推理,或者推理问题更复杂,那么所有模型的表现都会很糟糕。”

米尼亚斯说,苹果研究人员为此构建了一个合成数据集,将符号打乱排列后得到用于训练和测试模型的专项数据集。

“他们已经证明,一旦在输入序列中对符号本身或额外语境进行调整,模型性能就会明显下降,”他解释道。

苹果研究方法包括在训练集中引入各种“干扰信息”和附加条款,用以观察模型性能如何变化。然而,IBM数据科学家杰斯·博佐格(Jess Bozorg)指出这种研究也有局限性:“他们没有具体说明在添加内容时考虑了多少种干扰信息,也没有具体说明他们使用了哪些干扰信息。”

人性的相似之处:更偏爱自信的雄辩者

或许最令人不安的是,苹果研究指出的人工智能局限性与人类根深蒂固的认知偏见何其相似。正如容易被人工智能的雄辩所蒙蔽一样,我们也一贯高估一个人的自信和外向性格,常常误将伶牙俐齿等同于思维深刻。

“过度自信偏见”是人类判断中最常见的缺陷之一,个人对自身能力的主观自信远远超过客观准确性。这种偏见在社交和职场环境中尤为明显,那些自信外向的人往往能获得不成比例的关注和信任。

研究反复表明,人类倾向于将自信等同于能力、音量等同于价值、能言善辩等同于大智大慧。人工智能雄辩之下的空洞,与偏爱自信沟通的人性偏见之间的相似性深刻揭示出“智能”的本质。这两种现象都表明,我们是多么容易将“理解”的表象与实质混为一谈;也表明精湛的沟通技巧如何能掩盖推理与理解上的根本缺陷。

苹果公司的研究发现与关于人类偏见的心理学研究在此交汇,为我们如何驾驭这个日益复杂的世界提供了宝贵启示。无论是评估人工智能系统还是人类同行,我们都必须学会区分“表现”与“能力”,“雄辩”与“理解”。

这需要一种理智上的谦逊,认识到真正的大智慧常常伴随着恰如其分的不确定性;认识到最响亮最自信的未必是最可信的;认识到细致观察和检验完全可以将真正理解与精巧模仿区分开来。(辰辰)

延伸阅读
相关推荐
热点推荐
年轻时帅气,凭《雍正王朝》“十三爷”成名,如今59岁的他怎样了

年轻时帅气,凭《雍正王朝》“十三爷”成名,如今59岁的他怎样了

娱人细品
2025-11-15 14:08:23
陈思诚荣获金鸡奖最佳导演,导播把镜头切到了佟丽娅,她礼貌满分

陈思诚荣获金鸡奖最佳导演,导播把镜头切到了佟丽娅,她礼貌满分

五四观娱
2025-11-16 00:06:06
新疆年轻人,为什么不信伊斯兰教了?

新疆年轻人,为什么不信伊斯兰教了?

混沌录
2025-11-15 00:09:02
7轮10分!世界杯扩军后,他们反而出局了!无缘连续参加3届世界杯

7轮10分!世界杯扩军后,他们反而出局了!无缘连续参加3届世界杯

小火箭爱体育
2025-11-16 11:23:57
Respect!东契奇:裁判不想把球送给我们但字母哥抢过来 我很尊敬他

Respect!东契奇:裁判不想把球送给我们但字母哥抢过来 我很尊敬他

818体育
2025-11-16 14:57:00
李兰娟提醒:5种鱼容易导致孩子白血病,妈妈们购买时需警惕

李兰娟提醒:5种鱼容易导致孩子白血病,妈妈们购买时需警惕

一口娱乐
2025-11-15 13:38:51
北京市公安局副局长董亦军突发疾病去世,中央政法委发文号召学习

北京市公安局副局长董亦军突发疾病去世,中央政法委发文号召学习

澎湃新闻
2025-11-15 10:34:28
3-0!亚洲之光杀疯了:4场不败挺进世少赛16强,韩国0-2提前回家

3-0!亚洲之光杀疯了:4场不败挺进世少赛16强,韩国0-2提前回家

侃球熊弟
2025-11-15 23:26:23
赵薇断腕早离婚,佘智江锒铛入狱,黄有龙的“正路”能走多远?

赵薇断腕早离婚,佘智江锒铛入狱,黄有龙的“正路”能走多远?

豆腐脑观察局
2025-11-15 20:20:03
短跑名将梁小静右肩伤势严重,退出全运会女子百米金牌争夺,葛曼棋陈妤颉分列前两名轻松晋级

短跑名将梁小静右肩伤势严重,退出全运会女子百米金牌争夺,葛曼棋陈妤颉分列前两名轻松晋级

鲁中晨报
2025-11-16 13:21:19
辞去中国乒协主席!刘国梁当选国际乒联副主席 得票率91%断崖领先

辞去中国乒协主席!刘国梁当选国际乒联副主席 得票率91%断崖领先

风过乡
2025-11-16 08:19:22
比亚迪远程锁死印度电动大巴!看清印度宰客套路让其如意算盘落空

比亚迪远程锁死印度电动大巴!看清印度宰客套路让其如意算盘落空

诗意世界
2025-11-15 11:01:48
最后时刻放弃得分机会,艾顿为不理解NBA杯的分差规则道歉

最后时刻放弃得分机会,艾顿为不理解NBA杯的分差规则道歉

懂球帝
2025-11-16 05:29:07
西班牙王后女保镖火了!1 米 8 口袋鼓出棱角,腰部发力走路帅到犯规

西班牙王后女保镖火了!1 米 8 口袋鼓出棱角,腰部发力走路帅到犯规

草莓解说体育
2025-11-15 06:44:50
谢震业、陈佳鹏、严海滨折戟男子百米预赛,广东队陈冠锋晋级

谢震业、陈佳鹏、严海滨折戟男子百米预赛,广东队陈冠锋晋级

南方都市报
2025-11-16 13:41:43
武统、和统都没希望了?台湾军事专家:中国已经走上了第三条路

武统、和统都没希望了?台湾军事专家:中国已经走上了第三条路

顾史
2025-11-09 18:02:22
北京人快不用下厨了!机关食堂开放,价位让菜市场都慌了

北京人快不用下厨了!机关食堂开放,价位让菜市场都慌了

小李子体育
2025-11-16 13:02:02
太缺钱了!港府将手伸向死人...

太缺钱了!港府将手伸向死人...

港港地
2025-11-15 11:05:00
太有爱了!姚明带女儿回苏州探亲,父女散步姿势神复制网友看呆

太有爱了!姚明带女儿回苏州探亲,父女散步姿势神复制网友看呆

篮球国度
2025-11-16 10:56:06
终究是纸老虎!豪华之师不敌东道主丢金,李梦6中1,郑薇用兵神奇

终究是纸老虎!豪华之师不敌东道主丢金,李梦6中1,郑薇用兵神奇

萌兰聊个球
2025-11-15 21:35:54
2025-11-16 15:24:49

科技要闻

谁在炒作全固态电池?

头条要闻

毛宁援引《中日联合声明》 发英日双语海报提醒日方

头条要闻

毛宁援引《中日联合声明》 发英日双语海报提醒日方

体育要闻

最佳新秀候选!2028美国男篮有他一个位置

娱乐要闻

宋佳二封,易烊千玺拿奖张艺谋乐开花

财经要闻

涉三宗罪 释永信被批准逮捕

汽车要闻

"冰彩沙"全配齐 红旗HS6 PHEV预售17.88万起

态度原创

艺术
房产
数码
亲子
手机

艺术要闻

耗资17亿!中国最“丑”建筑?不,这是最硬核的!

房产要闻

首开狂卖6.68亿!海口这个顶级教育红盘,引爆海口楼市!

数码要闻

首家线下旗舰店深圳开业!徕芬的野心远不只是电动牙刷

亲子要闻

爸爸把女儿手夹紫了,3岁女儿让妈妈报警,要给爸爸抓走!

手机要闻

小米之家重返法国巴黎,首店开启试营业

无障碍浏览 进入关怀版
×