网易首页 > 网易号 > 正文 申请入驻

吴恩达:图灵测试不够用了,我会设计一个AGI专用版

0
分享至

来源:市场资讯

(来源:量子位)

新年新气象!AI大神吴恩达2026年目标公开:

要做一个新的图灵测试,他称之为图灵-AGI测试

光看名字就知道,这个测试专为AGI而生。


去年是AGI水涨船高的一年,吴恩达在其年度总结中也曾表示:

学术界和工业界频繁提及AGI概念,硅谷的公司也会为抢先AGI定下季度目标。

但关于AGI的定义至今还没有统一标准,现有基准测试还常常误导大众,使其高估当前的AI水平。

吴恩达注意到该趋势,于是新的图灵测试将试图弥补这一空白。


正如网友所言:


图灵-AGI测试设想

传统的图灵测试在AGI时代显然不够用。

它由艾伦·图灵在上世纪五十年代提出,提出用人机对话来测试机器的智能水平。

在测试过程中,人类评估者需要确定他们是在与人还是与机器交谈。如果机器能够成功骗过评估者,那么就算通过了测试。

但现在的AI显然不再满足于简单的对话交互,而是要构建起经济有用的系统,所以亟需一个能够衡量AI工作能力的测试。

而这就是图灵-AGI测试的核心,要让AI像人类一样智能,并完成大部分的知识型工作。

测试对象将会是AI系统或专业人士,他们将会被提供一台可以访问互联网并配备浏览器和Zoom等软件的计算机。


裁判将通过计算机为测试对象设计一个多日的体验任务,比如作为客服,会先被培训一段时间,然后要求执行接听电话的任务,并需要提供持续的反馈。

只要AI能够像人类一样熟练完成工作任务,就会被认为通过测试。

该测试将聚焦AGI的经济性和实际产出,更接近普世意义下对AGI的初始定义——可用于工作和生产场景的智能。

它也会比基准测试更考验AI的通用能力

现在几乎所有的AI基准测试,如GPQA、AIME、SWE-bench等,都会预先确定一个测试集。这意味着AI团队都会直接针对已发布的测试集来调整他们的模型。

这就导致很多AI模型榜单排名靠前,但真实物理世界中又能力不够。

去年闹得沸沸扬扬的Llama 4刷榜丑闻就是其中一个典型,明明数据看起来都很不错,但用户真正上手后却傻眼了。


此外,固定测试集只能衡量AI在某一狭窄领域的能力。相比之下,图灵测试可以由评委自由提出任意问题,没有提前限定范围,更能判断系统在通用任务上的表现。

在改进的图灵-AGI测试中,延续了这一设定,裁判可以任意设计体验任务,而受测试的AI或人类测试者均不会事先知道任务内容,这将比基准测试更能判断AGI水平。

同时为了校准社会对AI的期望,吴恩达表示,或许他将举办一场图灵-AGI测试,让所有AI参与其中。

即便最后的结果会是所有AI系统均未能达到标准,但也能平息长期以来对AGI的过度炒作。

这种降温将会为AI领域创造更稳健的环境,让行业重新聚焦于非AGI级别的实际进步,比如开发有实用价值的应用,而不是沉迷于实现AGI的营销噱头。

从长期来说,图灵-AGI测试也会为AI团队设定一个具体的努力目标,而非模糊地实现人类级智能。

倘若真有某一家公司能够通过测试,其成果也必定具备真实价值,图灵-AGI测试将会为真正的AGI突破提供可信的判定依据。

所以接下来,只需拭目以待。

[1]https://x.com/AndrewYNg/status/2008578741312836009?s=20

[2]https://www.deeplearning.ai/the-batch/issue-334/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
长江十年禁渔已过半程:刀鱼群归,鲥鱼无影?生态修复路在何方?

长江十年禁渔已过半程:刀鱼群归,鲥鱼无影?生态修复路在何方?

向航说
2026-01-16 01:00:03
利欧股份再创历史

利欧股份再创历史

富凯财经
2026-01-16 07:53:08
北京大兴机场海关查获600余克黄金

北京大兴机场海关查获600余克黄金

新京报
2026-01-15 11:25:09
荷兰最大的妓院,产道的微观视图,39张照片看世界

荷兰最大的妓院,产道的微观视图,39张照片看世界

深度报
2026-01-15 22:45:40
朝鲜第一“妖女”,与国王在宴会上“办事”,比妲己还夸张

朝鲜第一“妖女”,与国王在宴会上“办事”,比妲己还夸张

老澽爆笑大聪明
2026-01-13 20:00:05
Amick:由于国王拒绝送出首轮签,湖人得到库明加的概率大大增加

Amick:由于国王拒绝送出首轮签,湖人得到库明加的概率大大增加

移动挡拆
2026-01-16 00:26:43
王者归来取大胜!光头文班22+10完压字母 膝盖被撞后5记三分超准

王者归来取大胜!光头文班22+10完压字母 膝盖被撞后5记三分超准

颜小白的篮球梦
2026-01-16 11:23:27
拒绝24分逆转!哈登22+8,快船4连胜创神迹!伦纳德33+4断创纪录

拒绝24分逆转!哈登22+8,快船4连胜创神迹!伦纳德33+4断创纪录

一将篮球
2026-01-15 14:45:59
委内瑞拉和伊朗这一手“反水”直接给中国上了一堂最昂贵的战略课

委内瑞拉和伊朗这一手“反水”直接给中国上了一堂最昂贵的战略课

霹雳炮
2026-01-15 22:50:39
中纪委发出信号,这次,全国几十万村干部要瑟瑟发抖了…

中纪委发出信号,这次,全国几十万村干部要瑟瑟发抖了…

慧翔百科
2026-01-15 08:41:47
回顾许家印被抓捕现场,奋力反抗,怒吼不已,被抓捕人员抬出去

回顾许家印被抓捕现场,奋力反抗,怒吼不已,被抓捕人员抬出去

干史人
2026-01-08 22:47:00
难以置信!有人把呆呆家门口的土挖走,直播销售三坨赚了190元…

难以置信!有人把呆呆家门口的土挖走,直播销售三坨赚了190元…

火山诗话
2026-01-15 09:32:32
一夜间南海12岛礁合体,5800亿吨海水被吸走,东大这盘棋下得高明

一夜间南海12岛礁合体,5800亿吨海水被吸走,东大这盘棋下得高明

趣生活
2026-01-15 19:50:29
重返西部第二!残阵9战6胜联盟第一 3大因素治好“约基奇依赖症”

重返西部第二!残阵9战6胜联盟第一 3大因素治好“约基奇依赖症”

锅子篮球
2026-01-15 15:41:45
重庆合川呆呆爆火后续!满屋堆成山的礼物全部化成整个村的温暖

重庆合川呆呆爆火后续!满屋堆成山的礼物全部化成整个村的温暖

南方健哥
2026-01-15 15:15:05
破案!深圳能干赢上海,而广东却输40分的原因找到,沪迷说出实情

破案!深圳能干赢上海,而广东却输40分的原因找到,沪迷说出实情

后仰大风车
2026-01-16 08:25:06
最多一次喝了4斤白酒!聂卫平不仅是“棋圣”,还是“酒圣”

最多一次喝了4斤白酒!聂卫平不仅是“棋圣”,还是“酒圣”

罗掌柜体育
2026-01-15 10:48:59
既自私,又老欺负人,还不讲卫生,他上《奔跑吧天路篇》干嘛来了

既自私,又老欺负人,还不讲卫生,他上《奔跑吧天路篇》干嘛来了

一娱三分地
2025-12-29 13:14:58
1935年方志敏被俘,狱中用米汤致信鲁迅求救,不料鲁迅拒绝援手

1935年方志敏被俘,狱中用米汤致信鲁迅求救,不料鲁迅拒绝援手

唠叨说历史
2026-01-14 11:30:28
闫学晶风波再升级!一人已被行拘,婚变丑闻被扒,这回恐彻底栽了

闫学晶风波再升级!一人已被行拘,婚变丑闻被扒,这回恐彻底栽了

奇思妙想草叶君
2026-01-14 22:49:54
2026-01-16 12:43:00
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2054754文章数 5274关注度
往期回顾 全部

科技要闻

被网友"催"着走,小米紧急"抄"了特斯拉

头条要闻

特朗普终于拿到诺奖 马查多或为换取委内瑞拉总统宝座

头条要闻

特朗普终于拿到诺奖 马查多或为换取委内瑞拉总统宝座

体育要闻

聂卫平:黑白棋盘上的凡人棋圣

娱乐要闻

黄慧颐手撕保剑锋 曾黎意外卷入风波

财经要闻

深圳有白银商家爆雷 维权群超350人

汽车要闻

从 "商务" 变 "潮酷" 全新一汽奥迪A6L首秀亮相

态度原创

手机
游戏
数码
房产
公开课

手机要闻

苹果以旧换新升级:支持安卓机型,华为Mate X5最高抵2850元

谁都能做恐怖游戏 但迅哥留下的“人窟”你敢进吗?

数码要闻

内存条价格涨幅超三倍,存储市场已进入“超级牛市”阶段

房产要闻

突发!商业用房购房贷款最低首付比例下调至30%

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版