网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

我们正在严重低估AI的进展！AlphaGo缔造者罕见发声：2026年AI自主上岗8小时

2025-11-04 23:06:21　来源: 互联网思想

广东举报

0

分享至

　　

　　来源：新智元

　　【导读】当我们还在调侃「AI写错代码」时，实验室里的科学家却看到它能独立完成几个小时的复杂任务。AlphaGo作者Julian罕见发声：公众对AI的认知，至少落后一个世代。最新数据更显示，AI正以指数速度逼近专家水准，2026或许就是临界点。我们，是在见证未来，还是在自欺欺人？

　　AlphaGo、AlphaZero的核心作者——Julian抛出了一个尖锐的比喻：人们今天对AI的态度，很像当初面对新冠疫情早期的反应。

　　Julian的意思很直接：我们正在严重低估AI的进展。

　　

　　很多人还在笑它写错代码，抱怨它没法替代人类；但在实验室里，研究者早已看到另一幅景象——AI已经能独立完成几个小时的复杂任务，并且还在按指数速度进化。

　　这就是他决定站出来发声的原因：公众的认知，和前沿的现实，之间至少隔着一个世代的落差。

　　

　　科学家不忍再沉默：AI为何被大众低估？

　　Julian Schrittwieser的名字，或许不像马斯克、奥特曼那样家喻户晓，但在AI圈，他是响当当的存在。

　　

　　作为AlphaGo、AlphaZero、MuZero的核心作者之一，他亲历了AI从「围棋科幻」到「现实碾压」的全过程。

　　也正因如此，当他在个人博客写下那段话时，格外刺耳：

　　人们注意到AI还会犯错，就急着下结论：它永远不可能达到人类水准，或者影响有限。可别忘了——就在几年前，让AI写程序、设计网站还完全是科幻！

　　在他看来，今天的舆论氛围有点荒谬。

　　大众盯着模型出错的细节，就断言「AI不过如此」；记者拿两代模型的闲聊对比，觉得「没啥变化」，就认定「进步停滞」；政策讨论里，AI被当成遥远的、虚浮的「泡沫」。

　　

　　然而，实验室里的研究者看到的，却是另一幅画面：AI的能力曲线正在以指数型跃升。

　　Julian bluntly指出，公众与前沿之间的认知差距，至少滞后了一个世代。

　　他之所以站出来发声，不是为了渲染危机，而是为了提醒：如果连科学家眼前清晰可见的趋势都被忽视，真正的临界点到来时，我们几乎没有准备。

　　指数曲线下的震撼

　　AI「独立上班」的时间在翻倍

　　Julian提出的第一个关键证据，来自一家专门研究模型能力的机构——METR (Model Evaluation and Threat Research)。

　　他们的思路很直白：不再只看模型答题对错，而是衡量它们能自主完成多长时间的真实任务。

　　在今年早些时候的研究里，METR给出的答案是：Claude 3.7 Sonnet能在约1小时长度的软件工程任务中保持50%的成功率。

　　

　　这意味着，它已经具备独立撑起一段「实打实的工作时长」的能力。

　　Julian指出，更令人震惊的是——这条曲线呈现出指数增长趋势，每7个月翻一倍。

　　Sonnet 3.7已经是7个月前的模型，正好对应METR统计出的翻倍周期。

　　他随即给出最新的对照：在METR官网更新的图表里，可以看到Grok 4、Claude Opus 4.1、GPT-5已经排在右上角。

　　

　　Julian博文引用的METR数据，横轴为时间，纵轴为可完成任务的时长。可以看到GPT-5、Opus 4.1已经突破两小时大关。

　　它们不再是「1小时工作」，而是能够支撑超过2小时的任务。指数并没有放缓，反而略超预期。

　　这条线的含义不止是「2小时」，而是它所暗示的外推未来：

　　如果趋势不变，2026年年中，模型将能连续完成8小时工作；再往后，2027年，模型可能在不少复杂任务上超越人类专家。

　　Julian的意思很明确：你也许不必喜欢这种预测，但忽视它的代价极高。

　　跨行业评测：AI已逼近人类专家

　　如果说METR的研究证明了AI在软件工程任务上的「时间地平线」不断拉长，那么另一项研究——OpenAI的GDPval则把这个趋势带进了现实经济。

　　GDPval的设计非常直接：找来44个职业、9大行业的任务，每个职业挑选30个真实工作样本，总共1320项任务。

　　

　　GDPval任务覆盖9大行业，44个职业，模型表现已与人类差距极小。Claude Opus 4.1在多个维度甚至领先GPT-5。

　　这些任务由平均14年经验的行业专家设计，再交给模型去完成，最后由盲评打分：只看结果，不看作者是谁。

　　Julian在博文里写道：

　　最新的结果显示，GPT-5在许多职业任务上已经接近人类水准。更令人意外的是，Claude Opus 4.1（发布时间甚至早于 GPT-5），在GDPval上的表现显著优于GPT-5，几乎追平了行业专家。

　　这不是某个孤立benchmark的「漂亮成绩」，而是在跨越法律、金融、工程、医疗、创意等行业的真实检验中，AI开始逼近人类平均水平。

　　

　　OpenAI GDPval评测结果（2024–2025）。纵轴为模型在真实职业任务中的胜率（对比有多年经验的行业专家），深色为纯胜率，浅色为胜或平局。可以看到GPT-5已逼近「行业专家水平线」。

　　更值得注意的是：OpenAI在这份报告中，并没有刻意凸显自家模型，反而坦诚承认友商Claude的表现更好。

　　

　　Julian特别称赞这一点，认为这是行业少见的「科研诚信」：

　　在追求安全和有益结果时，比拼输赢反而不是最重要的。

　　当然，GDPval的设计也并非完美。

　　Julian也提醒，许多任务依然相对「整洁」（messy程度不高），没有模拟长周期、多轮反馈的复杂工作环境。

　　但即便如此，趋势已经足够说明问题——AI不只是能写点小程序，而是在真实的职业场景里，正一步步靠近甚至超越人类。

　　质疑声出现：趋势真的可靠吗？

　　在Julian的博文下，不少读者认同「AI没有泡沫」，但也有人提出尖锐的质疑。

　　其中，Atharva Raykar的评论获得了高赞。他指出：

　　把AI的进展直接类比成指数曲线，其实很危险。疫情的指数传播有明确机制支撑，而AI的提升并不是必然的。

　　

　　他的观点是：AI的进步更像是摩尔定律，靠整个行业不断叠加创新与工程突破。

　　如果没有推理模型等关键节点的突破，能力曲线可能早就「撞墙」。所以，单纯外推曲线，未必能保证未来必然继续加速。

　　Atharva还提到另一个问题：评测任务不够「messy」。

　　METR的任务平均「复杂度得分」只有3/16，相当于结构清晰的小型工程任务；而现实世界中的软件项目、科研探索，往往在7–16的区间，远比benchmark混乱。

　　也就是说，现在的评测结果可能高估了AI在真实世界中的适用性。

　　Julian在后续回复中承认了这些提醒的合理性，但也强调：

　　我类比的重点并不是AI一定会像病毒传播那样加速，而是公众和决策层正在忽视已经发生的增长。

　　短期（1–2 年）的趋势依然很清晰——在这种尺度上，外推往往比专家预测更靠谱。

　　在他看来，问题的关键不是曲线未来是否会「拐弯]，而是：如果趋势真的继续，而社会却没有准备，那代价将会极其沉重。

　　未来是替代，还是百倍增幅的协作？

　　Julian 在文章的最后给出了他最具冲击力的预测：

　　2026年中，至少有一款顶级模型能连续自主完成8小时的工作任务——这意味着它不再只是一个「对话工具」，而是能真正以「全职员工」的形式参与工作流。

　　2026年底，在多个行业任务中，会有模型的表现正式达到人类专家的平均水平。

　　2027年之后，在不少垂直任务里，AI的表现将频繁超越专家，并逐步成为生产力的主力。

　　这不是科幻，而是从当前曲线直接外推出的「保守版本」。

　　

　　Julian直言，忽视这种趋势，比过度担忧更危险。

　　但他同时也强调，AI的未来不一定意味着「替代」。在他设想的画面里，更有可能出现的是这样一种场景：

　　人类依旧是指挥者，但身边会有几十个、上百个超强助手。人机协作下的效率提升，不是1倍，而是10倍、100倍。

　　这种模式不仅能避免大规模失业的恐慌，还可能释放前所未有的创造力。

　　科研、设计、医疗、法律、金融……几乎所有行业都会因此重组。

　　Julian把这种可能性称为「更安全、更有益的道路」：让AI成为超强工具，而不是对手。

　　这幅未来图景令人震撼：或许在不远的2026或2027，你不是被AI取代，而是带着一支「AI 团队」去上班。

　　Julian的提醒，其实很简单：我们正在低估AI。

　　不是说它完美无缺，而是它的曲线比多数人想象的更快、更陡。

　　按照当前的趋势，2026或许就是关键转折点——AI可能不再是「实验室的奇观」，而是走进每一个普通行业，真正改写经济的底层逻辑。

　　这不是危言耸听，而是一个事实：未来两三年内，我们都将直面一个被低估的临界点。

　　而当那一刻到来时，每个人都要回答同一个问题：你会抵抗、观望，还是率先和你的AI团队并肩上岗？

　　参考资料：

　　https://x.com/polynoamial/status/1972167347088904371

　　https://www.julian.ac/blog/2025/09/27/failing-to-understand-the-exponential-again/

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

「不仅会想，还能准确去做」VLA-R1把「推理+行动」带进真实世界

机器之心Pro 2025-10-27 19:12:41
0 跟贴 0
景不动人动，OST-Bench揭示多模态大模型在线时空理解短板

机器之心Pro 2025-10-14 16:42:00
0 跟贴 0

小扎煲汤挖人，马斯克直呼疯狂！吴恩达揭秘AI人才“亿级战争”内幕

智东西 2025-12-30 23:41:12
0 跟贴 0

吴恩达年度AI总结来了！附带一份软件开发学习小tips

量子位 2025-12-30 14:43:51
0 跟贴 0
吴恩达年终总结：2025是AI工业时代的黎明

机器之心Pro 2025-12-30 15:05:38
0 跟贴 0

机器人终于有自己的真机评测大考了

量子位 2025-10-15 20:05:44
0 跟贴 0

卡帕西推荐的AI Coding指南：3招教你效率翻倍

量子位 2025-12-30 14:53:47
0 跟贴 0
荒野求生（机器狗全自主版），2025ATEC挑战真实户外无遥操

量子位 2025-12-08 19:24:34
0 跟贴 0

未来医生摘得全球第一，临床安全有效性评估新基准

量子位 2025-11-19 11:14:03
0 跟贴 0
李飞飞发起机器人家务挑战赛，老黄第一时间批钱赞助

量子位 2025-10-13 09:30:54
0 跟贴 0
猿编程创始人李翊：“4C体系”如何重塑AI时代青少年核心素养

芥末堆看教育 2025-12-30 22:09:45
0 跟贴 0
大模型也会赌博上瘾！理智出走！

量子位 2025-11-03 07:06:08
0 跟贴 0
机器人管家Figure 03来了，承包一切家务！

量子位 2025-10-11 10:13:00
0 跟贴 0
五八智能四足机器人平台Q20A 不止跑跳整活还能维护公共安全

量子位 2025-09-30 10:01:00
0 跟贴 0
灵巧手作为独立执行平台，实现工业与家庭场景应用

量子位 2025-12-11 03:38:13
0 跟贴 0
五八智能四足机器人平台Q20A，适用于千行百业

量子位 2025-09-30 15:35:41
0 跟贴 0
段永平：马斯克是个牛人但投资特斯拉有点难 “给我钱也不想跟他做朋友”

财联社 2025-11-13 22:10:37
4 跟贴 4
特斯拉9000吨一体化压铸机，造车跟生产玩具似的，马斯克操作绝了

蛤施街拍 2025-12-27 09:09:27
0 跟贴 0
一条视频，纯视觉有多牛，马斯克：这个车会让你感觉他是活的

皮皮笑家 2025-12-29 14:50:15
1 跟贴 1
特斯拉遥遥领先 FSD才是真神？大哥回怼太硬气了

创作者_7SAu 2025-12-30 00:48:25
19 跟贴 19
马斯克参投的飞行汽车，成功起飞，普通公路也能跑！

欢乐搞笑站 2025-12-29 07:50:00
0 跟贴 0
马斯克用Grok替代X员工，裁员90%

量子位 2025-11-29 16:58:47
0 跟贴 0
马斯克拿1万亿工资，为什么大家都觉得超值

雷科技 2025-11-08 14:17:34
5 跟贴 5
马斯克的特斯拉为什么遥遥领先

蹲坑看世界 2025-12-30 05:22:57
0 跟贴 0
29亿美元合同几近清零：特斯拉4680电池“神话”破灭

环球零碳 2025-12-30 23:13:15
0 跟贴 0
马斯克吹牛了吗？Grok 4第一波实测(2)

机器之心Pro 2025-07-11 17:29:24
137 跟贴 137
四周2亿人围观！诺奖凭什么颁给他，都在这一个半小时里

新智元 2025-12-29 17:57:23
39 跟贴 39
白银大涨后跳水，一度跌超5%，马斯克担忧银价上涨

每日经济新闻 2025-12-30 00:18:19
0 跟贴 0
特斯拉CEO马斯克：唯一能消除贫困的办法是具身智能！

知了3C 2025-12-27 14:25:32
0 跟贴 0
软银据称已全额完成对OpenAI的400亿美元出资承诺

财联社 2025-12-30 22:18:00
46 跟贴 46
弹幕里，藏着当代青年的“真实世界”

团结湖参考 2025-12-29 08:02:48
0 跟贴 0
其实重点不是遥控，很多人喷遥控，而是他走路自然多了！

西红柿爆笑菌 2025-12-30 00:46:25
0 跟贴 0
美乌总统谈了3小时特朗普被指发表"最令人震惊言论"

环球网资讯 2025-12-30 07:02:23
6873 跟贴 6873
别被人忽悠三五年就换车，马斯克妹妹那样的大佬也开10年的特斯拉

不看车bukanche 2025-12-28 15:18:30
0 跟贴 0
马斯克：欧洲已经没有欧洲人了

毛豆新鲜 2025-12-29 06:14:06
0 跟贴 0
价格飙升，多地零售价突破10元/斤！年初一斤仅一两元，网友：鸡蛋都快配不上它了

每日经济新闻 2025-12-26 10:01:26
6209 跟贴 6209
马斯克关于日本人口减少的预言，竟然如此真实，甚至可能会灭国

幸福得微笑 2025-12-30 13:15:47
3 跟贴 3
白银价格暴涨，马斯克：这可不好

界面新闻 2025-12-28 10:03:11
0 跟贴 0
刘晓庆见到好友蹦蹦跳跳，满脸灿笑像小姑娘，身材吸睛曲线完美

贵圈星娱 2025-12-30 22:40:22
3 跟贴 3
看完了这个视频，很难不爱上马斯克

时分秒说 2025-12-30 10:12:55
0 跟贴 0

普京揪出身边最大“内鬼”，原来总理是敌方间谍，给中方敲响警钟

普京揪出身边最大“内鬼”，原来总理是敌方间谍，给中方敲响警钟

花花娱界

2025-12-29 20:25:38

荣耀今天开卖的新机，又创全球第一

荣耀今天开卖的新机，又创全球第一

3C毒物

2025-12-30 00:07:14

金正恩接见女足引发争议，朝鲜高官气到踢了女足教练一脚

金正恩接见女足引发争议，朝鲜高官气到踢了女足教练一脚

大眼瞄世界

2025-12-30 09:44:08

财政部、税务总局：个人将购买2年以上的住房销售，免征增值税

财政部、税务总局：个人将购买2年以上的住房销售，免征增值税

数据说经济

2025-12-30 20:09:40

全总原副主席张世平71岁被查：曾在全国妇联任职，系今年第5个“女老虎”

全总原副主席张世平71岁被查：曾在全国妇联任职，系今年第5个“女老虎”

界面新闻

2025-12-30 15:53:53

5步解锁WPS永久免费使用，不充会员，所有功能全开无限制

5步解锁WPS永久免费使用，不充会员，所有功能全开无限制

时尚的弄潮

2025-12-30 15:23:20

大鹅主人抽水追凶最新进展来了：深刨半米淤泥啥也不见，或因厚草盖顶溺亡

大鹅主人抽水追凶最新进展来了：深刨半米淤泥啥也不见，或因厚草盖顶溺亡

极目新闻

2025-12-30 18:08:57

买来的出口数据：耗费地方财政，对经济无实质带动

买来的出口数据：耗费地方财政，对经济无实质带动

第一财经资讯

2025-12-29 13:24:09

这次庾澄庆的爆料，没给王菲留一丝体面，难怪李亚鹏选择和她离婚

这次庾澄庆的爆料，没给王菲留一丝体面，难怪李亚鹏选择和她离婚

白面书誏

2025-12-30 17:03:48

美女老板跑路！删光所有视频承诺永州夺冠就送车铁了心反悔耍赖

美女老板跑路！删光所有视频承诺永州夺冠就送车铁了心反悔耍赖

念洲

2025-12-30 20:21:50

紧急！中国“史上最严格”跨境汇款新规2天内生效！要换抓紧！单笔超5000元就要查

紧急！中国“史上最严格”跨境汇款新规2天内生效！要换抓紧！单笔超5000元就要查

澳洲红领巾

2025-12-30 13:31:21

“玩具店主买卖枪支案”检方撤诉后，两当事人申请国赔53万余元

“玩具店主买卖枪支案”检方撤诉后，两当事人申请国赔53万余元

澎湃新闻

2025-12-30 16:38:26

体制内“近亲繁殖”，现阶段无解

体制内“近亲繁殖”，现阶段无解

冰川思想库

2025-12-30 11:38:23

不要买！一级致癌物超标9000倍，成本最低仅1元，央视曝光

不要买！一级致癌物超标9000倍，成本最低仅1元，央视曝光

另子维爱读史

2025-12-30 20:42:23

普京遇袭！特朗普愤怒！莫斯科天空瘫痪！战争目标扩大！

普京遇袭！特朗普愤怒！莫斯科天空瘫痪！战争目标扩大！

汉唐智库

2025-12-30 09:37:04

解放军离登岛只差一步，特朗普一句话让台当局如坠冰窖，高市沉默

解放军离登岛只差一步，特朗普一句话让台当局如坠冰窖，高市沉默

时时有聊

2025-12-30 17:37:32

外交部：中方对卡莉达·齐亚女士不幸辞世表示深切哀悼

外交部：中方对卡莉达·齐亚女士不幸辞世表示深切哀悼

环球网资讯

2025-12-30 15:40:07

“福州长乐机场第二高速项目致5死”高坠事故调查报告公布

“福州长乐机场第二高速项目致5死”高坠事故调查报告公布

澎湃新闻

2025-12-30 17:04:27

解放军逼近台岛4.7海里，蒋万安严厉谴责，郑丽文的回应语出惊人

解放军逼近台岛4.7海里，蒋万安严厉谴责，郑丽文的回应语出惊人

寻途

2025-12-30 14:55:42

联盟第一人，还是倒下了！掘金还有底牌吗？

联盟第一人，还是倒下了！掘金还有底牌吗？

篮球盛世

2025-12-30 21:21:52

互联网思想

AI时代，互联网思想观察

2377文章数 16900关注度

往期回顾全部

科技要闻

估值150亿的智元，开始批量"制造"小独角兽

头条要闻

轰-6K飞行员：已到达任务空域导弹准备完毕可以发射

头条要闻

轰-6K飞行员：已到达任务空域导弹准备完毕可以发射

体育要闻

联盟第一人倒下了！掘金还有底牌吗？

娱乐要闻

林俊杰女友被扒父亲涉经济案卷款13亿?

财经要闻

朱光耀：美关税政策正使WTO名存实亡

汽车要闻

标配华为乾崑ADS 4 Pro 华境S明年上半年上市

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

本地

时尚

数码

教育

公开课

本地新闻

即将过去的2025年，对重庆的影响竟然如此深远

在这里，我们拍到了雪原上的一抹瑞红

数码要闻

天使吉米推出RITA主动降噪Hi-Fi头戴式耳机，399元

教育要闻

清华附中集团再扩军！背后的升学信号看懂了么

公开课

李玫瑾：为什么性格比能力更重要？

© 1997-2025 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版