网易首页 > 网易号 > 正文 申请入驻

吴恩达:图灵测试不够用了,我会设计一个AGI专用版

0
分享至

鹭羽 发自 凹非寺
量子位 | 公众号 QbitAI

新年新气象!AI大神吴恩达2026年目标公开:

要做一个新的图灵测试,他称之为图灵-AGI测试

光看名字就知道,这个测试专为AGI而生。



去年是AGI水涨船高的一年,吴恩达在其年度总结中也曾表示:

  • 2025年或许会被铭记为人工智能工业时代的开端
  • 创新推动模型性能到达新的高度,AI驱动的应用变得不可或缺,顶尖企业人才争夺激烈,基础设施建设推动社会生产总值增长。

学术界和工业界频繁提及AGI概念,硅谷的公司也会为抢先AGI定下季度目标。

但关于AGI的定义至今还没有统一标准,现有基准测试还常常误导大众,使其高估当前的AI水平。

吴恩达注意到该趋势,于是新的图灵测试将试图弥补这一空白。



正如网友所言:

  • 要衡量智能首先要定义智能。



图灵-AGI测试设想

传统的图灵测试在AGI时代显然不够用。

它由艾伦·图灵在上世纪五十年代提出,提出用人机对话来测试机器的智能水平。

在测试过程中,人类评估者需要确定他们是在与人还是与机器交谈。如果机器能够成功骗过评估者,那么就算通过了测试。

但现在的AI显然不再满足于简单的对话交互,而是要构建起经济有用的系统,所以亟需一个能够衡量AI工作能力的测试。

而这就是图灵-AGI测试的核心,要让AI像人类一样智能,并完成大部分的知识型工作。

测试对象将会是AI系统或专业人士,他们将会被提供一台可以访问互联网并配备浏览器和Zoom等软件的计算机。



裁判将通过计算机为测试对象设计一个多日的体验任务,比如作为客服,会先被培训一段时间,然后要求执行接听电话的任务,并需要提供持续的反馈。

只要AI能够像人类一样熟练完成工作任务,就会被认为通过测试。

该测试将聚焦AGI的经济性和实际产出,更接近普世意义下对AGI的初始定义——可用于工作和生产场景的智能。

它也会比基准测试更考验AI的通用能力

现在几乎所有的AI基准测试,如GPQA、AIME、SWE-bench等,都会预先确定一个测试集。这意味着AI团队都会直接针对已发布的测试集来调整他们的模型。

这就导致很多AI模型榜单排名靠前,但真实物理世界中又能力不够。

去年闹得沸沸扬扬的Llama 4刷榜丑闻就是其中一个典型,明明数据看起来都很不错,但用户真正上手后却傻眼了。



此外,固定测试集只能衡量AI在某一狭窄领域的能力。相比之下,图灵测试可以由评委自由提出任意问题,没有提前限定范围,更能判断系统在通用任务上的表现。

在改进的图灵-AGI测试中,延续了这一设定,裁判可以任意设计体验任务,而受测试的AI或人类测试者均不会事先知道任务内容,这将比基准测试更能判断AGI水平。

同时为了校准社会对AI的期望,吴恩达表示,或许他将举办一场图灵-AGI测试,让所有AI参与其中。

即便最后的结果会是所有AI系统均未能达到标准,但也能平息长期以来对AGI的过度炒作。

这种降温将会为AI领域创造更稳健的环境,让行业重新聚焦于非AGI级别的实际进步,比如开发有实用价值的应用,而不是沉迷于实现AGI的营销噱头。

从长期来说,图灵-AGI测试也会为AI团队设定一个具体的努力目标,而非模糊地实现人类级智能。

倘若真有某一家公司能够通过测试,其成果也必定具备真实价值,图灵-AGI测试将会为真正的AGI突破提供可信的判定依据。

所以接下来,只需拭目以待。


[1]https://x.com/AndrewYNg/status/2008578741312836009?s=20
[2]https://www.deeplearning.ai/the-batch/issue-334/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
四川省文物局局长唐飞:眉山文物资源呈现出三大特点丨关注四川历史文化名城保护③

四川省文物局局长唐飞:眉山文物资源呈现出三大特点丨关注四川历史文化名城保护③

北青网-北京青年报
2026-03-25 19:43:12
47岁袁泉被骂“断崖式衰老”,素颜糙脸背后,藏着演员最狠的自律

47岁袁泉被骂“断崖式衰老”,素颜糙脸背后,藏着演员最狠的自律

情感大头说说
2026-03-26 17:04:32
三分命中率64.1%,断层全联盟第一!郭士强该给他一个国家队名额

三分命中率64.1%,断层全联盟第一!郭士强该给他一个国家队名额

弄月公子
2026-03-26 11:03:13
强化金融风险源头防控

强化金融风险源头防控

经济日报
2026-03-26 06:48:05
5种“夺命花”不要养,家里要有赶快扔,谁不听劝谁吃亏

5种“夺命花”不要养,家里要有赶快扔,谁不听劝谁吃亏

三农老历
2026-03-26 09:42:30
57岁的宋祖英,虽是大妈年龄,却散发出中年女性的气质。

57岁的宋祖英,虽是大妈年龄,却散发出中年女性的气质。

情感大头说说
2026-03-27 00:16:52
大巨变!发现没有?农村越来越多四五十岁的人,都不出去打工了

大巨变!发现没有?农村越来越多四五十岁的人,都不出去打工了

复转这些年
2026-03-22 17:26:02
宝格丽晚宴:刘亦菲兜不住副乳,海瑟薇手歪曲,金智媛生图没眼看

宝格丽晚宴:刘亦菲兜不住副乳,海瑟薇手歪曲,金智媛生图没眼看

嫹笔牂牂
2026-03-25 07:14:56
一审重判整整17年,柯文哲当庭最后一搏,藏着赖清德最担心的结局

一审重判整整17年,柯文哲当庭最后一搏,藏着赖清德最担心的结局

李健政观察
2026-03-26 18:16:56
撕破脸!郑丽文公开炮轰卢秀燕,蓝营内斗彻底公开化!

撕破脸!郑丽文公开炮轰卢秀燕,蓝营内斗彻底公开化!

达文西看世界
2026-03-25 10:53:39
伊朗称已组织超百万人为地面战斗做准备

伊朗称已组织超百万人为地面战斗做准备

界面新闻
2026-03-26 22:53:08
省下一亿镑!曼联自有 “新吉马良斯”,卡里克手握王炸

省下一亿镑!曼联自有 “新吉马良斯”,卡里克手握王炸

澜归序
2026-03-26 04:56:27
柯文哲被判重刑,黄国昌蒋万安回应,赖清德又盯上郑丽文?

柯文哲被判重刑,黄国昌蒋万安回应,赖清德又盯上郑丽文?

DS北风
2026-03-26 17:58:06
外资大撤退:亚洲股市遭遇2009年以来...

外资大撤退:亚洲股市遭遇2009年以来...

新浪财经
2026-03-27 01:06:32
A股:紧急提醒3亿股民股民,主力已摊牌,周五,将迎来狂风暴雨

A股:紧急提醒3亿股民股民,主力已摊牌,周五,将迎来狂风暴雨

云鹏叙事
2026-03-27 00:00:07
李莉没有说过“伊朗半小时灭以色列”,

李莉没有说过“伊朗半小时灭以色列”,

雪中风车
2026-03-01 08:11:49
4.7万亿!马斯克打破人类财富纪录:他一个人的钱抵得过160个国家

4.7万亿!马斯克打破人类财富纪录:他一个人的钱抵得过160个国家

通鉴史智
2026-03-15 11:45:00
蒙古总理当众给斯大林一耳光,走出宴会厅3小时后,被扣上间谍帽子枪决

蒙古总理当众给斯大林一耳光,走出宴会厅3小时后,被扣上间谍帽子枪决

老杉说历史
2026-03-23 22:17:08
终于知道广东人为啥不抑郁了!网友:西医叫抑郁,中医叫郁结

终于知道广东人为啥不抑郁了!网友:西医叫抑郁,中医叫郁结

另子维爱读史
2026-03-25 22:34:08
陪玩陪睡不过冰山一角?张艺谋团队爆猛料,让女演员“小三逼婚”

陪玩陪睡不过冰山一角?张艺谋团队爆猛料,让女演员“小三逼婚”

情感大头说说
2026-03-25 03:04:32
2026-03-27 01:51:00
量子位 incentive-icons
量子位
追踪人工智能动态
12348文章数 176425关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

特朗普:伊朗允许10艘油轮通行霍尔木兹海峡

头条要闻

特朗普:伊朗允许10艘油轮通行霍尔木兹海峡

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

游戏
艺术
亲子
数码
时尚

PS1大IP游戏藏私货!成人手绘与盗版马里奥ROM塞满

艺术要闻

北京大兴机场和青岛胶东机场“撞脸”,长得像就是抄袭?

亲子要闻

看看把孩子吓得哈哈哈

数码要闻

英特尔发Q1.26版Arc Pro专业显卡驱动,支持B70 / B65显卡

400万人爱过的女孩,被黄谣网暴180天后

无障碍浏览 进入关怀版