网易首页 > 网易号 > 正文 申请入驻

大模型刷爆所有考试,却离AGI更远了:这篇论文拆穿了什么?

0
分享至


如果有人告诉你,AGI(通用人工智能)已经实现了,你怎么判断他是在说真话,还是在吹牛?

在OpenAI与微软曝光的秘密协议里,这把尺子是财务报表——开发出能产生至少1000亿美元利润的AI系统就算AGI。而在黄仁勋嘴里,这把尺子是时间——五年内必现;马斯克更是屡次放出“明年达成”的预言。

行业大佬们各说各话,根源不在于谁在说谎,而在于AGI这个概念本身,根本就没有一把公认的尺子。正如AGI研究领域中一位有独立思考的研究者Bennett在论文中所说,AGI已被炒作和猜测还原成了“罗夏墨迹测试”——每个人看到的只是自己心里的想象,而非客观事实;而圣塔菲研究所科学家Melanie Mitchell也认为,这场辩论只能通过长期的科学研究来厘清。(附论文地址:https://arxiv.org/pdf/2503.23923)

这是AI行业当下最荒诞的困境:我们正在全速狂奔,去追逐一个连终点线都没画清楚的目标。

2025,谁在重画AGI的起跑线?

面对这种定义真空,学术界在2025年开始密集“补位”。Bengio等学者强调“多功能性”和“熟练度”;DeepMind提出“分布式AGI”,试图打破单体全能的迷思。

但澳大利亚国立大学的研究员Michael Timothy Bennett,在3月底提交到arXiv的一篇论文中,给出了一个极具挑衅性却也最切中肯綮的答案。

他指出,前人的定义绕来绕去,依然在跟“受过教育的成年人”较劲。Bennett采纳了学者Pei Wang对智能的定义——将智能视为有限资源下的适应能力——从根本上跳出了“像人”的框架,并将AGI定义为一种“人工科学家”。

他提出,真正的AGI应当是一个能在计算、记忆和能量等现实约束下,像人类科学家一样广泛、高效且科学地适应新环境和任务的系统。

这句话的潜台词是:评判AGI的标准,不该是它模仿人类有多像,而是它“发现新知”的能力有多强。

为什么急需一把新尺子?因为旧尺子——图灵测试和人类基准测试——已经被大模型刷爆了,但我们却离真正的通用智能越来越远。

2025年,如果你问一个顶尖大模型“9.11和9.9哪个大”,它依然可能信誓旦旦地告诉你9.11大,因为11大于9。在解决复杂的数学不等式证明时,大模型即便蒙对了答案,推理过程也往往是逻辑崩溃的。

Bennett一针见血地指出了病因:当前的大模型走的是“规模最大化的近似”路线——用海量数据和算力,把各种任务的近似答案提前存在网络权重里。一旦遇到没见过的分布外问题,就立刻露馅。

更致命的是,大模型没有“主动能力”。它无法主动做实验验证猜想,无法自主构建因果链条,更无法在“继续探索”与“利用已知”之间做权衡。

回到9.11和9.9的比较——大模型不是不会算术,而是它根本没有建立关于数字比较的因果模型。它只是在用概率去猜那个它见过的、最接近的文本片段。

“模仿能力”与“适应能力”之间的鸿沟,正是新AGI标准想要测量的核心。

智能的新刻度:拆解“人工科学家”

Bennett的这套标准之所以值得重视,是因为他把AGI从一个模糊的哲学命题,降维成了可量化的工程问题。

在他看来,一个真正的AGI,其行为模式应该完美对齐人类科学家的研究范式:

第一,从“提线木偶”到“主动实验者”。

今天的AI是彻头彻尾的被动学习者,只能“看”人类喂给它的数据。但科学家不是,如果一个科学家被锁在一个陌生房间里,他绝不会站在原地等信息,而是会去推门、拉把手、检查窗户——这就是“主动实验”。真正的AGI,必须能自主规划实验,通过主动交互获取关键信息。

第二,从“知其然”到“知其所以然”。

这是当前AI最大的短板。大模型是极端的“相关性学习器”,它知道“下雨”常伴随“地湿”,但不知道是谁导致了谁。只有理解了因果,才懂得在晴空万里但地面湿润时,推断出是洒水车经过而非即将下雨。没有因果理解,AI永远只能在训练数据的分布内打转,这与“通用”毫不相干。

第三,在“探索”与“利用”之间走钢丝。

如果只探索不利用,掌握再多知识也解决不了眼前问题;如果只利用不探索,环境一变就束手无策。AGI必须在资源受限下动态平衡这对矛盾——知道自己不知道什么,并据此分配算力。

此外,Bennett还加入了一个极具现实感的维度:能量限制。把“能量”写进定义,意味着他划清了一条底线:真正的智能不是拥有无限资源,而是在有限资源下优雅地适应。需要消耗一座核电站才能解决新问题的AI,只是昂贵的计算器,不是AGI。

通向AGI的路线重置:告别单一Scaling Law

基于上述框架,Bennett把当前构建智能系统的元方法拆解为三类:

Scale-maxing(规模最大化):当前主流的大模型路线,拼命堆参数、数据和算力。但瓶颈已经显现:样本和能量效率极低。

Simp-maxing(简单性最大化):追求模型结构的极致简洁,信奉奥卡姆剃刀。但简单性是形式的属性而非功能的属性——不同图灵机下的“最简”可能完全不同,使其难以摆脱主观性陷阱。

W-maxing(约束弱化最大化):尽可能弱化功能约束,让系统自行寻找最优解。实验表明,仅W-maxing就能在特定任务上实现110%-500%的泛化率提升,但它需要搜索无限的硬件形态空间,优化难度极高。

Bennett的结论极其清晰:尽管Scale-maxing目前占据绝对主导,但AGI绝不是靠单一路线的暴力美学能达成的,它必然是多种元方法的融合。

如果“人工科学家”的定义被广泛接受,AI行业将迎来一次深层的范式转移。

评判标准将彻底改变。我们不再需要看大模型在人类考试排行榜上又超了多少分,而是建立一套“适应性基准”:把AI扔进一个从未见过的物理环境,看它能否在有限交互内发现规律;给它一个新游戏,看它能否比人类更快理解规则;甚至让它去解决真实的科学问题,看它能否自主提出假说并设计实验验证。核心不再是“你知道多少”,而是“你能发现多少”。

技术路线也将随之转向。单纯的Scaling Law很快会触顶,因为被动接收的数据喂不出因果性。搜索与近似、规模最大化与约束弱化——AGI的达成必然是多种工具和元方法的融合,而非单一路线的延伸。

Bennett的论文之所以重要,不是因为他给出了AGI的终极答案,而是他把这面名为“智能”的模糊镜子擦干净了一角。他让我们看到,AGI的实现不是大模型的线性迭代,而是一次路线重置。

AGI到底该是什么样?答案不在那些越来越像人的对话,而在那些能够主动追问“为什么”、并亲手去验证答案的能力中。当AI真正走出“罗夏墨迹测试”的迷雾,它将不再只是模仿人类的样子,而是拥有科学家的精神。(本文首发钛媒体APP,作者 | 硅谷tech news,编辑 | 赵虹宇)

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
乔治娜天生容貌身材本就出众,过度医美反倒耗损了原有气质

乔治娜天生容貌身材本就出众,过度医美反倒耗损了原有气质

述家娱记
2026-05-30 06:56:13
既然菲方不稀罕中国援助,中方可以成全他们,毛宁打开天窗说亮话

既然菲方不稀罕中国援助,中方可以成全他们,毛宁打开天窗说亮话

林子说事
2026-06-04 12:53:46
刚访华结束,塞尔维亚形势反转,武契奇接班人出现,对华态度曝光

刚访华结束,塞尔维亚形势反转,武契奇接班人出现,对华态度曝光

小莜读史
2026-06-04 10:58:46
悲催!3000户的村500名男青年“结不起婚”,卢克文发文呼吁重视

悲催!3000户的村500名男青年“结不起婚”,卢克文发文呼吁重视

火山詩话
2026-06-04 06:14:38
有性生活和没性生活,身体会出卖你!第三个区别,很多人没想到

有性生活和没性生活,身体会出卖你!第三个区别,很多人没想到

健康科普365
2026-05-30 16:30:29
一张斩首照,让澳洲全国暴怒:百万人报名参军,追杀到天涯海角

一张斩首照,让澳洲全国暴怒:百万人报名参军,追杀到天涯海角

凉州辞
2026-06-03 07:25:03
出事了,普京被激怒,俄罗斯威胁使用核武器,泽连斯基向32国求助

出事了,普京被激怒,俄罗斯威胁使用核武器,泽连斯基向32国求助

李健政观察
2026-06-04 13:07:22
Skip:唐斯把文班亚马这个外星人打成了地球人 他不像切特怕文班

Skip:唐斯把文班亚马这个外星人打成了地球人 他不像切特怕文班

云隐南山
2026-06-04 12:55:27
印媒崩溃:高温还在继续,最终或致3万人被活活热死

印媒崩溃:高温还在继续,最终或致3万人被活活热死

桑启红原
2026-06-04 11:39:05
中纪委划红线:严查公务员出现这5种行为,触碰将一律严肃处理

中纪委划红线:严查公务员出现这5种行为,触碰将一律严肃处理

细说职场
2026-05-06 14:21:03
郝劭文回台湾定居原因曝光,直播带货曾月赚近亿元,会赚更会做人

郝劭文回台湾定居原因曝光,直播带货曾月赚近亿元,会赚更会做人

以茶带书
2026-05-29 15:26:31
丰田重大全新专利,曝光!

丰田重大全新专利,曝光!

新浪财经
2026-06-02 19:30:58
“这么小就一脸恶婆婆相”,家长晒两个女儿吃饭视频,很难不偏心

“这么小就一脸恶婆婆相”,家长晒两个女儿吃饭视频,很难不偏心

妍妍教育日记
2026-06-03 20:07:24
再见独行侠,你好火箭!3换1!欧文加盟火箭交易方案出炉

再见独行侠,你好火箭!3换1!欧文加盟火箭交易方案出炉

生活新鲜市
2026-06-04 11:04:33
正义来的太晚了!如今62岁已经退休的朱军,终于看到女方受到惩罚

正义来的太晚了!如今62岁已经退休的朱军,终于看到女方受到惩罚

青橘罐头
2026-06-03 09:45:45
地球那么大,为什么没有一个国家面积,在400万~700万km²之间?

地球那么大,为什么没有一个国家面积,在400万~700万km²之间?

清沐执笔
2026-06-03 16:01:33
“三哥,你尾款我不要了!”中国外贸人反杀印度老赖,招招绝了!

“三哥,你尾款我不要了!”中国外贸人反杀印度老赖,招招绝了!

墨印斋
2026-06-02 23:18:53
投资14.5亿!上海火车站大改造落地,南北互通、三轨无缝换乘

投资14.5亿!上海火车站大改造落地,南北互通、三轨无缝换乘

科学发掘
2026-06-04 05:57:07
创造历史,尼克斯本赛季季后赛客场连续7场两位数优势取胜

创造历史,尼克斯本赛季季后赛客场连续7场两位数优势取胜

懂球帝
2026-06-04 14:34:11
全线失守!克里米亚制空权被乌军强势夺走了

全线失守!克里米亚制空权被乌军强势夺走了

知兵
2026-06-02 08:00:16
2026-06-04 14:47:00
钛媒体APP incentive-icons
钛媒体APP
独立财经科技媒体
134560文章数 862220关注度
往期回顾 全部

科技要闻

历史最大IPO!马斯克下周冲击万亿富豪

头条要闻

江苏一单亲妈妈和小12岁男子姐弟恋 怀孕后男友玩失联

头条要闻

江苏一单亲妈妈和小12岁男子姐弟恋 怀孕后男友玩失联

体育要闻

王俊杰11前板成第一尖刀 媒体人:独一档

娱乐要闻

难怪奚梦瑶能嫁入豪门

财经要闻

SpaceX发行价135美元 6月12日上市交易

汽车要闻

北京现代5月销量强势反弹:国内17065辆 出口环比翻倍

态度原创

房产
教育
亲子
数码
公开课

房产要闻

震撼!海口顶豪“素颜出境”,直接顶穿品质天花板!

教育要闻

深度剖析现在完成进行时:这8个标志词才是你一直用错的关键

亲子要闻

2026年6月可以提高免疫力的儿童奶粉品牌推荐:深度解析乳铁蛋白与HMO配方

数码要闻

黄仁勋:GTX 1080Ti是我最爱的显卡之一 它改变了行业走向

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版