网易首页 > 网易号 > 正文 申请入驻

吴恩达:图灵测试不够用了,我会设计一个AGI专用版

0
分享至

鹭羽 发自 凹非寺
量子位 | 公众号 QbitAI

新年新气象!AI大神吴恩达2026年目标公开:

要做一个新的图灵测试,他称之为图灵-AGI测试

光看名字就知道,这个测试专为AGI而生。



去年是AGI水涨船高的一年,吴恩达在其年度总结中也曾表示:

  • 2025年或许会被铭记为人工智能工业时代的开端
  • 创新推动模型性能到达新的高度,AI驱动的应用变得不可或缺,顶尖企业人才争夺激烈,基础设施建设推动社会生产总值增长。

学术界和工业界频繁提及AGI概念,硅谷的公司也会为抢先AGI定下季度目标。

但关于AGI的定义至今还没有统一标准,现有基准测试还常常误导大众,使其高估当前的AI水平。

吴恩达注意到该趋势,于是新的图灵测试将试图弥补这一空白。



正如网友所言:

  • 要衡量智能首先要定义智能。



图灵-AGI测试设想

传统的图灵测试在AGI时代显然不够用。

它由艾伦·图灵在上世纪五十年代提出,提出用人机对话来测试机器的智能水平。

在测试过程中,人类评估者需要确定他们是在与人还是与机器交谈。如果机器能够成功骗过评估者,那么就算通过了测试。

但现在的AI显然不再满足于简单的对话交互,而是要构建起经济有用的系统,所以亟需一个能够衡量AI工作能力的测试。

而这就是图灵-AGI测试的核心,要让AI像人类一样智能,并完成大部分的知识型工作。

测试对象将会是AI系统或专业人士,他们将会被提供一台可以访问互联网并配备浏览器和Zoom等软件的计算机。



裁判将通过计算机为测试对象设计一个多日的体验任务,比如作为客服,会先被培训一段时间,然后要求执行接听电话的任务,并需要提供持续的反馈。

只要AI能够像人类一样熟练完成工作任务,就会被认为通过测试。

该测试将聚焦AGI的经济性和实际产出,更接近普世意义下对AGI的初始定义——可用于工作和生产场景的智能。

它也会比基准测试更考验AI的通用能力

现在几乎所有的AI基准测试,如GPQA、AIME、SWE-bench等,都会预先确定一个测试集。这意味着AI团队都会直接针对已发布的测试集来调整他们的模型。

这就导致很多AI模型榜单排名靠前,但真实物理世界中又能力不够。

去年闹得沸沸扬扬的Llama 4刷榜丑闻就是其中一个典型,明明数据看起来都很不错,但用户真正上手后却傻眼了。



此外,固定测试集只能衡量AI在某一狭窄领域的能力。相比之下,图灵测试可以由评委自由提出任意问题,没有提前限定范围,更能判断系统在通用任务上的表现。

在改进的图灵-AGI测试中,延续了这一设定,裁判可以任意设计体验任务,而受测试的AI或人类测试者均不会事先知道任务内容,这将比基准测试更能判断AGI水平。

同时为了校准社会对AI的期望,吴恩达表示,或许他将举办一场图灵-AGI测试,让所有AI参与其中。

即便最后的结果会是所有AI系统均未能达到标准,但也能平息长期以来对AGI的过度炒作。

这种降温将会为AI领域创造更稳健的环境,让行业重新聚焦于非AGI级别的实际进步,比如开发有实用价值的应用,而不是沉迷于实现AGI的营销噱头。

从长期来说,图灵-AGI测试也会为AI团队设定一个具体的努力目标,而非模糊地实现人类级智能。

倘若真有某一家公司能够通过测试,其成果也必定具备真实价值,图灵-AGI测试将会为真正的AGI突破提供可信的判定依据。

所以接下来,只需拭目以待。


[1]https://x.com/AndrewYNg/status/2008578741312836009?s=20
[2]https://www.deeplearning.ai/the-batch/issue-334/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
澳网最新战报!中国莎娃首盘6-3告捷:轰5记ACE+2破发,冲64强!

澳网最新战报!中国莎娃首盘6-3告捷:轰5记ACE+2破发,冲64强!

刘姚尧的文字城堡
2026-01-20 10:52:47
中缅边境通婚严重,为了能在中国定居,缅甸女孩也太拼了

中缅边境通婚严重,为了能在中国定居,缅甸女孩也太拼了

老谢谈史
2025-12-09 20:27:39
剪发、玩手机、拒交流!小玥儿这波“无声反抗”,狠狠打谁的脸?

剪发、玩手机、拒交流!小玥儿这波“无声反抗”,狠狠打谁的脸?

阿废冷眼观察所
2025-12-29 03:51:04
方硕被交易?1换2方案曝光,下家3选1,豪门或出手

方硕被交易?1换2方案曝光,下家3选1,豪门或出手

乐聊球
2026-01-19 10:17:33
叶文斌已被成功救出,但主动从事诈骗活动的他怕是要坐牢

叶文斌已被成功救出,但主动从事诈骗活动的他怕是要坐牢

映射生活的身影
2026-01-19 22:32:27
爱德华兹成2026全明星首发最大遗珠 他到底哪点不受球迷待见?

爱德华兹成2026全明星首发最大遗珠 他到底哪点不受球迷待见?

仰卧撑FTUer
2026-01-20 10:40:14
0-3!1-1!疯狂一夜,拉齐奥崩盘,布莱顿绝平,塞维利亚让二追二

0-3!1-1!疯狂一夜,拉齐奥崩盘,布莱顿绝平,塞维利亚让二追二

足球狗说
2026-01-20 06:39:19
8岁女孩吐活虫一个多月,各类驱虫药都无效,专家开会诊断后愣住

8岁女孩吐活虫一个多月,各类驱虫药都无效,专家开会诊断后愣住

罪案洞察者
2025-07-24 10:04:42
特朗普:若无格陵兰岛问题协议,必对欧加征关税

特朗普:若无格陵兰岛问题协议,必对欧加征关税

新华社
2026-01-20 10:24:03
取代联合国,特朗普邀60国建新“群”,唯独没中国,说明了什么?

取代联合国,特朗普邀60国建新“群”,唯独没中国,说明了什么?

顾史
2026-01-20 05:31:38
人血馒头吃不停!好友爆梁小龙去世细节,小20岁娇妻赌赢了!

人血馒头吃不停!好友爆梁小龙去世细节,小20岁娇妻赌赢了!

皮蛋儿电影
2026-01-19 22:15:36
再有钱的两广人,回家也得住“战损风卧室”

再有钱的两广人,回家也得住“战损风卧室”

手工制作阿爱
2026-01-20 00:35:03
1958年,张国焘请求中央给予他补助,毛主席同意,但提出一个条件

1958年,张国焘请求中央给予他补助,毛主席同意,但提出一个条件

帝哥说史
2026-01-17 06:40:03
陳百祥血管爆了展示傷勢大片瘀黑好駭人,看淡生死不排斥安樂死

陳百祥血管爆了展示傷勢大片瘀黑好駭人,看淡生死不排斥安樂死

粤睇先生
2026-01-18 01:51:44
李亚鹏做梦也没想到,心中这口恶气竟让向太给出了,窦靖童没说谎

李亚鹏做梦也没想到,心中这口恶气竟让向太给出了,窦靖童没说谎

墨印斋
2026-01-18 21:54:20
真大腿!每体:巴萨本赛季输掉5场比赛,其中4场拉菲尼亚因伤缺席

真大腿!每体:巴萨本赛季输掉5场比赛,其中4场拉菲尼亚因伤缺席

云隐南山
2026-01-20 11:50:28
俄罗斯人自己先捅破了窗户纸:外蒙古和远东,怕不是要“回家”了

俄罗斯人自己先捅破了窗户纸:外蒙古和远东,怕不是要“回家”了

福建平子
2026-01-20 06:52:46
湖人逆转猛龙!艾顿创53年队史纪录,詹姆斯创2大NBA纪录前无古人

湖人逆转猛龙!艾顿创53年队史纪录,詹姆斯创2大NBA纪录前无古人

毒舌NBA
2026-01-19 13:01:45
一年亏超60亿元!两大车企紧抱华为,合计投113亿搞研发

一年亏超60亿元!两大车企紧抱华为,合计投113亿搞研发

车东西
2026-01-19 21:21:11
牛女士道歉后续:爷爷转账100删除孩子联系方式,有人跑单位去闹

牛女士道歉后续:爷爷转账100删除孩子联系方式,有人跑单位去闹

阿纂看事
2026-01-17 09:52:50
2026-01-20 12:40:49
量子位 incentive-icons
量子位
追踪人工智能动态
12033文章数 176360关注度
往期回顾 全部

科技要闻

去年预亏60亿后再投百亿 两大车企紧抱华为

头条要闻

中方代表当场质问日方:你们从来没有真正地认罪悔过

头条要闻

中方代表当场质问日方:你们从来没有真正地认罪悔过

体育要闻

新的时代!东契奇生涯首夺全明星票王 此前10年詹姆斯7次夺魁

娱乐要闻

贝克汉姆长子发文决裂:全家都在演戏

财经要闻

2026年,7个趋势正在爆发

汽车要闻

奇瑞张贵兵:墨甲不做秀技术的企业 只做痛点终结者

态度原创

家居
艺术
手机
亲子
公开课

家居要闻

隽永之章 清雅无尘

艺术要闻

书法圈人士秒认墙上14字,普通人能懂吗?

手机要闻

外设品牌狼蛛AULA全系产品售后升级至2年质保

亲子要闻

我发现现在的人特难怀孕,不知道啥原因

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版