网易首页 > 网易号 > 正文 申请入驻

得分仅1%!所有AI模型都输了!但我们真要解决的问题是……

0
分享至

点击图片报名,抓住风口(iOS用户请用电脑端打开小程序)

本期要点:AI也要应试?但真正该做的是换条路!

你好,我是王煜全,这里是王煜全要闻评论。

面对这场AI浪潮,大家常常感到恐慌。特别是在马斯克的不断宣传下,很多人都担心AI很快会取代人类,甚至导致人类毁灭。

但是,就像昨天我们介绍杨立昆对人形机器人的看法时提到的,人类距离实现AGI(通用人工智能)还很遥远,所以大家大可不必被“AI末日说”搞得一惊一乍。

而且,最近我们又看到了一个有趣的新闻,证明了AI至少在短期内无法替代人类。

上周,“弧光奖基金会”(Arc Prize Foundation)发布了一项名为ARC-AGI-2的测试。根据他们的数据,这个测试已经难倒了几乎所有现有的AI模型。

如OpenAI的o1-pro和DeepSeek的R1等推理AI大模型,在ARC-AGI-2测试中的得分仅为1%~1.3%。而各类非推理模型,如GPT-4.5、Claude 3.7 Sonnet和Gemini 2.0 Flash等,得分则更低。

更关键的是,研究人员邀请了400多个普通人参与ARC-AGI-2测试。结果显示,平均而言,大家答对了测试中60%的问题,远远超过了所有模型的得分。

也就是说,“弧光奖基金会”找到了一类人类比较擅长、但AI几乎无法完成的任务,而且鉴于AI得分如此之低,它们在短期内想要超过人类,难度很大。

我认为,当前大模型在ARC-AGI-2测试中的溃败,确实暴露了AI方法论上的问题,表明单纯堆砌算力和数据量并不能碾压一切。如果要进一步发展,必须转换思路。同时,这也触及了人工智能领域的一个核心问题:如何判断一个模型是否真正具备了通用智能。

首先,你也许会好奇,是什么事情把AI难住了?

其实在科技界,ARC-AGI测试已小有名气。这些问题类似于谜题,比如要求AI从一组颜色各异的方块中识别出视觉模式,并生成正确的“答案”网格。说白了,就是给AI一些从未见过的新问题,考验其发现规律、解决问题的能力。

简而言之,这就是为了测试AI的“小样本泛化”能力,也就是我们常说的“举一反三”、“触类旁通”—-从对少量案例的观察中发现规律、并运用到后续实践中的能力。通过不了ARC-AGI-2测试,至少说明当前的AI方法论存在上限,未来也很难实现AGI。

ARC-AGI-2测试题目

人类智能的独特性,正体现在能从有限的经验中抽象出通用规则。例如,我们能从数字变化中总结出乘法规则,然后还能用这些规则进行计算,既不会算错,也不会因为问题的表述形式(比如是应用题、而不是算术式)而不会解题。

但当前的AI大模型经常出现幻觉,在99%的情况下非常可靠,在1%的状况下却会发生荒诞失误。正如Meta首席AI科学家杨立昆(Yann LeCun)所指出的,当前AI大模型都是基于自回归预测机制,也就是“猜下一个词”,这还是概率,而不是真的理解了规律,自然永远无法超越人类智能。

因为现有的AI,不光不能“触类旁通”,还得“举一万才能返三”,所以,对那些没见过的事情,AI就是答不出来;对那些小概率事件,AI就是应对不好,这是刻在骨子里的缺陷。

但是,话说回来,我想强调的是,单纯追求小样本泛化的能力的测试结果,可能会陷入测试导向的发展误区。

如果未来有AI大模型通过了ARC-AGI-2测试,是否就意味着实现了AGI呢?这显然是站不住脚的,因为这样的测试并没有排除用别的方法找到结果的可能性,也就是说,做对了题的AI,也不保证用的就是“小样本泛化”能力。

实际上,在ARC-AGI的第一代测试中,就有模型通过暴力破解的方式获得了高分。

例如,OpenAI的o3,就是首个在ARC-AGI-1上取得了75.7%高分的模型。但很明显,这并不能真正证明o3有小样本泛化能力,更不能证明它达到了AGI的水平,大概率是模型为了刷分而专门进行了优化。

为了解决这一问题,ARC-AGI-2测试就要求模型在解答问题时,每项任务花费不能超过0.42美元。不仅要能获得高分,还要考虑效率和成本。由于o3模型每解答一个问题就需要消耗约200美元的计算成本,所以无法通过新的测试。

可是这并没有高枕无忧,只要是设计的测试题,就有可能存在漏洞。很难说以后不会有模型在训练中,找到新的暴力破解或者偶然撞对答案的方法,那样,测试题的效力就会大打折扣。

那么,究竟该怎么办呢?我认为,自然是要尝试新的具有真正理解能力的模型设计,而不是仍然试图通过现有模型概率预测的旧方法来取得高分。

杨立昆倡导“世界模型”,通过嵌入物理定律和因果推理模块来构建基础认知架构,以求从范式上超越现有AI大模型。他们的团队也开始了初步探索,未来可以关注其后续进展。

但我觉得,“世界模型”也是不够的。AI的竞争不仅靠技术革命,更要靠认知革命。

首先,我们或许应该要理解人类“举一反三”的能力从何而来。所谓泛化,其实是记忆、感知和抽象动态交互的结果。遇到新事物时,我们会以很低的功耗从现象中抽象出规则,并在可控范围内将其与已有的规则和经验进行比较。

就像古人第一次见到大象时,虽然叫不出其名字,但也会与既往的认知进行关联,将其放入大型野生动物的认知框架之中,知道不能切成一块块的来称重量。

其次,我们的认知其实是个贝叶斯式渐进优化的过程,体现为以目标为导向、且能持续进行自我修正。即便碰到没见过的问题,在大部分情况下,我们通过学习知识、原理分析和实践尝试,就能在有限次的循环中朝正确方向收敛。而AI只有实现了这一点,才能避免陷入重复试错的低效运转之中。

最后,我还想强调的是,社会化AI可能才是通往下一阶段的重要路径,因为人类的智慧不仅来自个体,更来自于群体。具体可以回看以往的思想荟文章,我有更详细的论述。

当然,对于广大的开发者和创业者而言,我们不用管AGI何时到来,专家型AI确实可以远超人类专家,专家级的、个性化的、连续的、普惠的智能服务已经可以实现,真正的黄金时代其实就已经到来了。如果你也想抓住时代红利,欢迎扫码加入特训营直播课,与我一起,先人一步,看清未来!

此外,前哨AI小课第四季已经进展到第五讲了,想用AI提升自己职业能力的朋友,千万不要错过!最后,您的宝贵意见是我们不断优化课程内容的关键,在此诚挚地邀请您抽出几分钟,扫码参与AI小课的问卷调查,一起帮助我们提升课程质量。非常感谢!

以上就是今天的内容,王煜全要闻评论,我们明天见。

【科技特训营】看懂科技产业,离不开长期观察。线上书院模式,与王老师深度链接!为未来五年做好准备,先人一步,领先一路!

↓长按图片扫码报名, 先人一步,领先一路

↓¥399,掌握王煜全AI产业预测精华(iOS用户请在电脑端打开)

此外,我们还为您准备了一份清单

“全球AI独角兽公司TOP10”

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
出大事了,伊朗准备同归于尽,沉睡小组将激活,特朗普计划泡汤了

出大事了,伊朗准备同归于尽,沉睡小组将激活,特朗普计划泡汤了

防卫狙击手
2026-03-08 17:10:32
危险信号!中方若拒特朗普访华,中美关系或面临破裂!

危险信号!中方若拒特朗普访华,中美关系或面临破裂!

奇思妙想生活家
2026-03-09 03:40:42
1947年他带着华东野战军4个师投蒋,一生7次叛变,最后结局如何?

1947年他带着华东野战军4个师投蒋,一生7次叛变,最后结局如何?

掠影后有感
2026-03-08 10:16:51
河北泼汤泄愤女社死!赔钱道歉还丢人,警方出手,更严重的在后面

河北泼汤泄愤女社死!赔钱道歉还丢人,警方出手,更严重的在后面

离离言几许
2026-03-08 16:12:03
伊朗总统:在新任最高领袖穆杰塔巴·哈梅内伊的领导下,伊朗必将迈向光明未来

伊朗总统:在新任最高领袖穆杰塔巴·哈梅内伊的领导下,伊朗必将迈向光明未来

政知新媒体
2026-03-09 10:55:58
2004年,“赵忠祥数和我保持不正当关系,把我折磨得满身疾病。”

2004年,“赵忠祥数和我保持不正当关系,把我折磨得满身疾病。”

南权先生
2026-02-05 15:52:26
女生主动起来有多黏人?网友:这些女的太开放了

女生主动起来有多黏人?网友:这些女的太开放了

带你感受人间冷暖
2026-01-27 00:20:06
7亿王者级肉签发行申购,中签难,股民中到即赚到!

7亿王者级肉签发行申购,中签难,股民中到即赚到!

数据挖掘分析
2026-03-09 09:01:01
22岁中国姑娘远嫁迪拜,白天享尽荣华富贵,到了晚上却度日如年

22岁中国姑娘远嫁迪拜,白天享尽荣华富贵,到了晚上却度日如年

云景侃记
2025-09-10 11:44:14
对 “台独刽子手”陈舒怡,必须抓捕归案以平民愤、告忠魂!

对 “台独刽子手”陈舒怡,必须抓捕归案以平民愤、告忠魂!

达文西看世界
2026-01-12 14:14:16
国民党“立委”叫嚣“源头打击大陆”,比民进党还激进!

国民党“立委”叫嚣“源头打击大陆”,比民进党还激进!

达文西看世界
2026-03-08 17:27:41
详情曝光:距美军基地仅两分钟,卡塔尔F-15击落伊朗两架轰炸机

详情曝光:距美军基地仅两分钟,卡塔尔F-15击落伊朗两架轰炸机

鹰眼Defence
2026-03-06 18:53:56
1957年,黄百韬之子被判死刑,其母亲求见宋美龄:我只有一个要求

1957年,黄百韬之子被判死刑,其母亲求见宋美龄:我只有一个要求

明月清风阁
2026-02-15 14:55:05
JKL调侃范志毅:我输过越南但是赢过韩国,你一次韩国都没赢过

JKL调侃范志毅:我输过越南但是赢过韩国,你一次韩国都没赢过

懂球帝
2026-03-08 10:59:10
奇耻大辱!怕被斩首,哈梅内伊葬礼突然宣布延期,具体日期未定

奇耻大辱!怕被斩首,哈梅内伊葬礼突然宣布延期,具体日期未定

深度报
2026-03-06 21:07:20
全网首台理想汽车实测比亚迪兆瓦闪充桩:73度电 31分钟充满

全网首台理想汽车实测比亚迪兆瓦闪充桩:73度电 31分钟充满

快科技
2026-03-09 07:32:27
哈维:决定拿掉我的是埃切瓦里亚;下课后没和拉波尔塔说过话

哈维:决定拿掉我的是埃切瓦里亚;下课后没和拉波尔塔说过话

懂球帝
2026-03-09 07:32:06
美国精英想不通:为什么每次要打压中国时,总有意外发生?

美国精英想不通:为什么每次要打压中国时,总有意外发生?

聚焦真实瞬间
2026-01-26 10:19:09
西安事变死了多少人?难怪蒋介石关押张学良一辈子

西安事变死了多少人?难怪蒋介石关押张学良一辈子

莹莹的历史说
2026-03-08 11:19:32
华人母子当场被扣!这几块石头,让新西兰海关把他们告上法庭

华人母子当场被扣!这几块石头,让新西兰海关把他们告上法庭

发现新西兰
2026-03-09 11:03:06
2026-03-09 12:51:00
王煜全 incentive-icons
王煜全
王煜全带你一起看创新
1045文章数 769关注度
往期回顾 全部

科技要闻

冲上热搜,马化腾说没想到“龙虾”这么火

头条要闻

穆杰塔巴"冒死"接班 或让伊朗进入"复仇+军管"模式

头条要闻

穆杰塔巴"冒死"接班 或让伊朗进入"复仇+军管"模式

体育要闻

36连胜终结!大魔王也是可以战胜的

娱乐要闻

姆巴佩恋情确认!与26岁新欢共度良宵

财经要闻

油价直逼120美元!

汽车要闻

对标奔驰小号G级 路虎小型卫士最新消息曝光

态度原创

艺术
亲子
教育
时尚
军事航空

艺术要闻

吴冠中画长江,气势磅礴

亲子要闻

杭州医院生长贴火 孩子贴后长高6-7厘米

教育要闻

全国人大代表黄花春:对学生心理问题先当耳朵再动嘴巴 #写给未来的五年 #2026全国两会

春天穿夹克,短一些的更帅气!

军事要闻

王毅:解决台湾问题 实现祖国完全统一不可阻挡

无障碍浏览 进入关怀版