网易首页 > 网易号 > 正文 申请入驻

吴恩达公开信:2026年能实现AGI吗?六位专家说先解决这些问题

0
分享至

2026 年伊始,DeepLearning.AI 创始人、斯坦福大学兼职教授吴恩达(Andrew Ng)在其年度通讯《The Batch》新年特刊中抛出了一个尖锐的问题:“2026 年会是我们最终实现 AGI 的一年吗?”这个问题本身或许并不新鲜,但吴恩达提出了一个新的测试框架,试图用一种更可靠的方式来回答这个问题。


图丨吴恩达(来源:MIT Technology Review)

吴恩达将这个测试命名为“Turing-AGI Test”(图灵 - AGI 测试)。测试的设计思路是这样的:让测试对象,无论是 AI 系统还是人类专业人士,坐在一台可以联网、装有浏览器和 Zoom 等常用软件的电脑前。裁判会设计一个持续数天的工作体验,比如先培训测试对象成为一名客服人员,然后让他接听真实的客户来电,期间提供持续的反馈。如果 AI 能够像一位熟练的人类员工那样完成这些工作任务,它就通过了测试。

这个测试的关键词是“工作”。吴恩达在公开信中写道,大多数普通人理解的 AGI,意味着计算机能够像人一样聪明,能够完成大部分甚至全部的知识工作。这个定义听起来理所当然,但问题在于,当一些公司宣称自己即将实现 AGI 时,他们所设定的标准往往低得多。

定义上的错位造成了认知上的混乱,这种混乱正在产生真实的负面影响。吴恩达观察到,有高中生因为相信 AGI 即将到来而放弃了某些学科的学习,有 CEO 在做投资决策时假设 AI 在一两年内就会变得比实际可能的更强大。这些都是过度炒作带来的后果。

吴恩达指出了传统图灵测试的局限性。那个经典测试要求计算机通过文字聊天让人类裁判无法分辨它是机器还是人。Loebner 奖的历史表明,模拟人类打字错误这种与智能无关的技巧,有时比真正展示智能更容易让裁判上当。而今天 AI 发展的主要目标是构建能够完成经济上有价值的工作的系统,而不是愚弄裁判。因此,一个测量工作能力的测试比测量欺骗能力的测试更有意义。

另一个问题是,当前几乎所有的 AI 基准测试,比如 GPQA、AIME、SWE-bench 等,都有预先确定的测试集。这意味着 AI 团队最终会或直接或间接地针对已公开的测试集调优模型。

任何固定的测试集都只能测量智能的一个狭窄切片。而在图灵测试中,裁判可以自由提问来探测模型的能力边界。同样,在 Turing-AGI 测试中,裁判可以设计任何工作体验,而且不会提前向被测试的 AI 透露测试内容。这是比固定测试集更好的衡量 AI 通用性的方式。

吴恩达的担忧有其现实基础。过去几十年里,过度炒作的预期曾经导致过“AI 寒冬”。当人们对 AI 能力感到失望时,兴趣和投资就会大幅减少。

而当前 AI 正处于一个惊人的进步轨道上,但不切实际的炒作可能创造一个投资泡沫,一旦泡沫破裂,失望情绪可能会再次导致兴趣的崩溃。

吴恩达认为,如果举办一个 Turing-AGI 测试竞赛,而所有 AI 系统都未能通过,这实际上是件好事。这将有助于消解 AGI 炒作、降低泡沫风险,从而为 AI 的持续投资创造更可靠的路径。而如果真的有公司通过了这个测试,那就意味着他们创造的不仅仅是一个营销噱头,而是真正具有巨大价值的东西。

这番论述的背景是,2025 年 AI 泡沫的讨论已经达到了前所未有的热度。据 Crunchbase 数据,2025 年 AI 领域共获得了 2023 亿美元的投资,比 2024 年的 1,140 亿美元增长了 75%。高盛研究报告显示,2026 年 AI 资本支出预计将从 4,650 亿美元上调至 5,270 亿美元。

与此同时,MIT Media Lab 旗下的一份研究报告在 2025 年 8 月指出,尽管企业在生成式 AI 上投入了 300-400 亿美元,但 95% 的组织“零回报”。OpenAI 的 CEO 山姆·奥特曼在 2025 年的一次媒体晚宴上也承认,他认为投资者整体上对 AI 过度兴奋了。

NBC 新闻在 2025 年底对吴恩达的采访中,他表达了一种谨慎但乐观的立场:AI 确实很神奇,但它也有很大的局限性。他认为 AGI 还是一个遥远的可能性,他同时强调 Agentic AI 的商业价值将持续快速增长,尽管炒作的走向难以预测。

在这封年度公开信中,吴恩达还邀请了六位在各自领域具有影响力的研究者和从业者分享他们对 2026 年的期望。这些观点涵盖了开源生态、科学发现、教育变革、从预测到行动的转变、生物医学多模态模型,以及构建社区的 ChatBot。

IBM 研究院 AI 模型副总裁大卫・考克斯(David Cox)的期望是开源 AI 能够最终获胜。他将当前的局面与 1990 年代 Linux 挑战微软的历史相类比,认为某些玩家正在试图拥有和控制 AI,做法与当年微软向发展中市场倾销免费 Windows 如出一辙。

OpenAI 和 Meta 都发布了所谓“开放”的模型,但不披露训练数据集,还对使用者能够获得的收入设置上限。这些都是为了防止竞争者获得吸引力。


图丨David Cox(来源:MIT-IBM Waston AI Lab)

考克斯认为真正开放的 AI 意味着它不被任何人拥有,不只代表一家公司的价值观。他还提到地缘政治因素:国家之间互不信任,而模型很容易被有问题的数据投毒,真正的开放开发可以解决这个问题。IBM 在斯坦福透明度指数上排名第一,得分 95%。考克斯用一种自嘲式的幽默结束:IBM 以无聊著称,但无聊意味着稳定。让 AI 在 2026 年变得更开放、更怪异,也许还有一点更无聊吧。

普林斯顿大学 Vertaix 研究实验室创始人阿吉・布索・迪恩(Adji Bousso Dieng)希望 AI 能够从效率工具转变为科学发现的催化剂。她指出,过去十年深度学习的主导范式是“插值”,模型擅长模仿训练数据的分布,但在最罕见的样本上表现不佳。

物理科学中的许多重大挑战,从设计全新蛋白质到发现能够捕获二氧化碳的新型金属有机框架等问题无法被表述为监督学习问题,而应该被视为发现问题,其所寻找的东西恰恰是稀有的。


图丨Adji Bousso Dieng(来源:Princeton Engineering)

在这些场景中,分布的主导模式往往在科学上不那么有趣,因为它们代表的是我们已经知道的东西。迪恩认为,我们需要将多样性提升为一等目标,而不仅仅是将其视为次要的评估指标。如果我们实现这种转变,AI 将不再仅仅是人类知识的模仿者,而会成为扩展知识的真正伙伴。

微软首席数据科学家胡安・M・拉维斯塔・费雷斯(Juan M. Lavista Ferres)聚焦于教育。ChatGPT 发布三年多后,教育界仍在与这项技术的影响搏斗。他指出,AI 检测器在实验室里表现良好,但它们的这种表现假设学生会提交原始的模型输出,可他们并不会。一旦有了检测器,学生就有动机去规避它,而规避并不困难。

这是一个结构性问题:如果你能构建一个检测 AI 生成文本的系统,那你就可以用这个系统来训练一个击败它的系统。检测可能会惩罚错误的人(尤其是非英语母语者),同时未能阻止最复杂的规避。他建议教育者使用现场考试、口头答辩等真实的理解展示方式,并假设学生会使用 AI 工具来设计作业。精灵已经从瓶子里出来了,没有办法把它放回去。


图丨Juan M. Lavista Ferres(来源:Microsoft)

艾伦人工智能研究所高级研究科学家谭梅・古普塔(Tanmay Gupta)认为,2026 年 AI 研究应该正视一个核心认识:预测的模型与行动的系统是不同的,后者才是我们真正需要的。世界上有经济意义的任务不会在单个预测结束,它们需要在复杂、动态的环境中采取一系列行动。

考虑一下编程是如何演变的:模型曾经只是自动补全代码行,但现代编程 Agent 越来越多地接受高级规范、搜索代码库、运行测试,并以最少的人工干预返回工作解决方案。古普塔希望能将这种演变带到其他领域。

这些目标导向的 AI 系统需要的不仅仅是预测能力,还需要持久记忆、长时间专注于目标的能力、对实时反馈的响应,以及在不断变化的环境中应对不确定性的能力。处理未明确、定义不清、未发现和未想象的任务是下一个前沿。


图丨Tanmay Gupta(来源:Medium)

加州大学圣地亚哥分校副教授 Pengtao Xie 的期望围绕生物医学领域的多模态模型。在过去几年里,联合推理文本、图像、序列的模型取得了快速进展,但在生物医学环境中,这些能力往往仍然是碎片化的、脆弱的或难以解释的。

他强调,生物系统本质上是多尺度和多视角的,基础模型应该实现深度的多模态整合,而不是模态的表面拼接。另一个关键焦点是可解释性:在生物医学中,仅有预测是远远不够的,研究人员和临床医生需要理解模型为什么做出某个决定、它依赖什么证据。2026 年的进展不仅应该通过基准测试来衡量,还应该通过整合到生物医学工作流程中来衡量。


图丨Pengtao Xie(来源:Pengtao Xie)

AMD 企业副总裁莎朗・周(Sharon Zhou)则希望看到 AI 打破与每个人的一对一关系,将人们聚集在一起而不是孤立他们。今天的互联网正在被推向两个极端,一端是严重的 AI“垃圾化”,一边是拼命想把 LLM 挡在门外的人工策展。但这种张力可以是整合性的:AI 可以被设计成连接人们、加强人际联系的工具。


图丨SharonZhou(来源:MIT Technology Review)

想象一下,当你在凌晨三点和 LLM 谈论一个人际关系问题时,它问你是否想和另一个有同样感受的人聊聊,然后加入你们的对话,用有趣的问题让交流活跃起来,直到你意识到你交了几个朋友,修复了你的 bug,还获得了处理人际关系的新视角。好奇心在被分享时会加速,它是有传染性的。要是AI从一开始就被设计成撮合人的角色,人和 AI 都能从中受益。

吴恩达在公开信的最后写道:新年快乐,祝大家在新的一年里有一个美好的建设之旅。而“建设”这个词或许正应当是今年 AI 发展的主线。在炒作与泡沫的喧嚣中,真正重要的是那些正在默默建设的人,以及他们建设出来的、能够真正完成工作的东西。

参考资料:

https://www.deeplearning.ai/the-batch/issue-334/

运营/排版:何晨龙

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中国最狠禁令砸向日本!这次结局,一定比广场协议还惨

中国最狠禁令砸向日本!这次结局,一定比广场协议还惨

一个坏土豆
2026-01-08 20:50:28
就在今天!1月8日凌晨 CBA传来广东3新消息 胡明轩对不起国手身份

就在今天!1月8日凌晨 CBA传来广东3新消息 胡明轩对不起国手身份

皮皮观天下
2026-01-08 05:58:46
南京博物院的瓜,终于让我吃完整了

南京博物院的瓜,终于让我吃完整了

大张的自留地
2025-12-20 08:54:45
南京多位“85后“市辖区副区长履新

南京多位“85后“市辖区副区长履新

上观新闻
2026-01-08 20:34:05
数学家陶哲轩儿子变性了?本人现身回应,全网吵翻

数学家陶哲轩儿子变性了?本人现身回应,全网吵翻

互联网思想
2026-01-07 22:49:44
官媒主动下场,53岁孟晚舟再掀天花板,让任正非与整个商界沉默了

官媒主动下场,53岁孟晚舟再掀天花板,让任正非与整个商界沉默了

牛牛叨史
2026-01-07 13:34:04
国产香烟加了助燃剂?测试发现只能烧4分钟,而日本烟能烧7分钟

国产香烟加了助燃剂?测试发现只能烧4分钟,而日本烟能烧7分钟

回旋镖
2026-01-01 21:00:24
血的教训!美军突袭委内瑞拉:多亏这套系统,解放军却从未装备?

血的教训!美军突袭委内瑞拉:多亏这套系统,解放军却从未装备?

南宗历史
2026-01-07 15:04:25
60岁大爷和40岁俏寡妇搭伙,她什么都不要,只在新婚夜提了一个要求

60岁大爷和40岁俏寡妇搭伙,她什么都不要,只在新婚夜提了一个要求

红豆讲堂
2025-02-27 17:00:05
镇书记被县纪委留置,他的妻子去找县委书记,不久镇书记官复原职

镇书记被县纪委留置,他的妻子去找县委书记,不久镇书记官复原职

乔生桂
2025-12-11 18:52:58
真不是我乱说,如今NBA的“俩王,四个二”,就是以下六位球员

真不是我乱说,如今NBA的“俩王,四个二”,就是以下六位球员

暗香暗香
2026-01-03 07:25:24
小鹏今日将发布四款新车 SUV续航最高超1700公里

小鹏今日将发布四款新车 SUV续航最高超1700公里

手机中国
2026-01-08 09:26:07
法国男演员实施安乐死!

法国男演员实施安乐死!

下水道男孩
2026-01-07 23:20:45
报价1个亿!利物浦求购巴黎23岁妖刀 上赛季独造41球

报价1个亿!利物浦求购巴黎23岁妖刀 上赛季独造41球

球事百科吖
2026-01-08 06:39:21
如果你买的股票早上快速拉高然后慢慢下跌,你明白是怎么回事吗?

如果你买的股票早上快速拉高然后慢慢下跌,你明白是怎么回事吗?

一方聊市
2025-12-26 05:05:06
这下麻烦大了!不到48小时,闫学晶再迎2大噩耗,何庆魁也被牵连

这下麻烦大了!不到48小时,闫学晶再迎2大噩耗,何庆魁也被牵连

阿纂看事
2026-01-07 12:16:27
41岁吕一疑似婚变!北京小家重装依旧老土,老公生活痕迹全被抹掉

41岁吕一疑似婚变!北京小家重装依旧老土,老公生活痕迹全被抹掉

娱圈小愚
2026-01-07 09:51:58
人不可貌相,否则容易有眼不识泰山。网友:千万别以貌取人

人不可貌相,否则容易有眼不识泰山。网友:千万别以貌取人

夜深爱杂谈
2026-01-03 21:49:51
夫妻性生活“爽”到尖叫的技巧:深度探索与情感交融的艺术

夫妻性生活“爽”到尖叫的技巧:深度探索与情感交融的艺术

精彩分享快乐
2025-12-01 16:01:12
占地70.5亩!西安高新这座公园招标!

占地70.5亩!西安高新这座公园招标!

地产新瞳
2025-08-29 18:22:01
2026-01-09 03:15:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16097文章数 514462关注度
往期回顾 全部

科技要闻

智谱拿下“全球大模型第一股”,凭什么

头条要闻

采用俄罗斯的防空系统 委内瑞拉防空体系因何失效

头条要闻

采用俄罗斯的防空系统 委内瑞拉防空体系因何失效

体育要闻

世乒赛银牌得主,说自己梦里都是孙颖莎

娱乐要闻

抗战剧《马背摇篮》首播,获观众好评

财经要闻

微软CTO韦青:未来人类会花钱"戒手机"

汽车要闻

从量变到"智"变 吉利在CES打出了五张牌

态度原创

旅游
亲子
本地
公开课
军事航空

旅游要闻

京城里的小众博物馆

亲子要闻

家长注意了!这7件事别再孩子面前做!

本地新闻

1986-2026,一通电话的时空旅程

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

特朗普提出将美国军费提升至1.5万亿美元

无障碍浏览 进入关怀版