网易首页 > 网易号 > 正文 申请入驻

吴恩达:图灵测试不够用了,我会设计一个AGI专用版

0
分享至

来源:市场资讯

(来源:量子位)

新年新气象!AI大神吴恩达2026年目标公开:

要做一个新的图灵测试,他称之为图灵-AGI测试

光看名字就知道,这个测试专为AGI而生。


去年是AGI水涨船高的一年,吴恩达在其年度总结中也曾表示:

学术界和工业界频繁提及AGI概念,硅谷的公司也会为抢先AGI定下季度目标。

但关于AGI的定义至今还没有统一标准,现有基准测试还常常误导大众,使其高估当前的AI水平。

吴恩达注意到该趋势,于是新的图灵测试将试图弥补这一空白。


正如网友所言:


图灵-AGI测试设想

传统的图灵测试在AGI时代显然不够用。

它由艾伦·图灵在上世纪五十年代提出,提出用人机对话来测试机器的智能水平。

在测试过程中,人类评估者需要确定他们是在与人还是与机器交谈。如果机器能够成功骗过评估者,那么就算通过了测试。

但现在的AI显然不再满足于简单的对话交互,而是要构建起经济有用的系统,所以亟需一个能够衡量AI工作能力的测试。

而这就是图灵-AGI测试的核心,要让AI像人类一样智能,并完成大部分的知识型工作。

测试对象将会是AI系统或专业人士,他们将会被提供一台可以访问互联网并配备浏览器和Zoom等软件的计算机。


裁判将通过计算机为测试对象设计一个多日的体验任务,比如作为客服,会先被培训一段时间,然后要求执行接听电话的任务,并需要提供持续的反馈。

只要AI能够像人类一样熟练完成工作任务,就会被认为通过测试。

该测试将聚焦AGI的经济性和实际产出,更接近普世意义下对AGI的初始定义——可用于工作和生产场景的智能。

它也会比基准测试更考验AI的通用能力

现在几乎所有的AI基准测试,如GPQA、AIME、SWE-bench等,都会预先确定一个测试集。这意味着AI团队都会直接针对已发布的测试集来调整他们的模型。

这就导致很多AI模型榜单排名靠前,但真实物理世界中又能力不够。

去年闹得沸沸扬扬的Llama 4刷榜丑闻就是其中一个典型,明明数据看起来都很不错,但用户真正上手后却傻眼了。


此外,固定测试集只能衡量AI在某一狭窄领域的能力。相比之下,图灵测试可以由评委自由提出任意问题,没有提前限定范围,更能判断系统在通用任务上的表现。

在改进的图灵-AGI测试中,延续了这一设定,裁判可以任意设计体验任务,而受测试的AI或人类测试者均不会事先知道任务内容,这将比基准测试更能判断AGI水平。

同时为了校准社会对AI的期望,吴恩达表示,或许他将举办一场图灵-AGI测试,让所有AI参与其中。

即便最后的结果会是所有AI系统均未能达到标准,但也能平息长期以来对AGI的过度炒作。

这种降温将会为AI领域创造更稳健的环境,让行业重新聚焦于非AGI级别的实际进步,比如开发有实用价值的应用,而不是沉迷于实现AGI的营销噱头。

从长期来说,图灵-AGI测试也会为AI团队设定一个具体的努力目标,而非模糊地实现人类级智能。

倘若真有某一家公司能够通过测试,其成果也必定具备真实价值,图灵-AGI测试将会为真正的AGI突破提供可信的判定依据。

所以接下来,只需拭目以待。

[1]https://x.com/AndrewYNg/status/2008578741312836009?s=20

[2]https://www.deeplearning.ai/the-batch/issue-334/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
突然确诊癌症!浙江男子当场蒙了:我不痛不痒,能吃能睡,医生:体检有个项目要早做

突然确诊癌症!浙江男子当场蒙了:我不痛不痒,能吃能睡,医生:体检有个项目要早做

新浪财经
2026-05-09 10:44:22
赶紧扔掉!这5种“厨房神器”危害很大,你家厨房可能也有

赶紧扔掉!这5种“厨房神器”危害很大,你家厨房可能也有

Home范
2026-05-03 16:50:03
5000万英镑报价敲定!巴黎全力挖阿森纳边锋,欧冠决赛趁机谈判

5000万英镑报价敲定!巴黎全力挖阿森纳边锋,欧冠决赛趁机谈判

夜白侃球
2026-05-09 08:50:12
今年再难都能熬出头的三大生肖!能吃苦更能聚财,翻身就在眼前!

今年再难都能熬出头的三大生肖!能吃苦更能聚财,翻身就在眼前!

毅谈生肖
2026-05-09 11:46:46
特朗普最小的儿子巴伦是时间旅行者?133年前小说引发疯狂阴谋论

特朗普最小的儿子巴伦是时间旅行者?133年前小说引发疯狂阴谋论

译言
2026-05-07 15:27:13
叶选宁为何是“红二代”里的老大哥?邓朴方的一句评价,十分经典

叶选宁为何是“红二代”里的老大哥?邓朴方的一句评价,十分经典

顾史
2026-03-03 18:44:51
国际油价本周大跌7%

国际油价本周大跌7%

每日经济新闻
2026-05-09 09:16:42
乡镇女大学生晒“低审美”穿搭,网友眼前一黑:求求你都扔了吧!

乡镇女大学生晒“低审美”穿搭,网友眼前一黑:求求你都扔了吧!

妍妍教育日记
2026-05-09 10:34:34
拉齐奥0-3国际米兰,赛后评分出炉:不是劳塔罗第一,国米8号第一

拉齐奥0-3国际米兰,赛后评分出炉:不是劳塔罗第一,国米8号第一

侧身凌空斩
2026-05-10 01:49:42
突发,一名机务被撞牺牲!

突发,一名机务被撞牺牲!

中国民航人
2026-05-09 20:51:06
梦幻开局!上海久事2-0横扫山东,时隔四年重返 CBA 四强

梦幻开局!上海久事2-0横扫山东,时隔四年重返 CBA 四强

友谊第一
2026-05-10 00:55:25
韩安冉称没有男人能拒绝她:我这么好,哪有男人能拒绝的了我

韩安冉称没有男人能拒绝她:我这么好,哪有男人能拒绝的了我

韩小娱
2026-05-08 08:38:12
9-6到15-13卸包袱!梁靖崑高呼提气怒目圆瞪 回酒店时与球迷互动

9-6到15-13卸包袱!梁靖崑高呼提气怒目圆瞪 回酒店时与球迷互动

颜小白的篮球梦
2026-05-09 08:32:49
立夏后,每天杯子里泡点它,清肝明目排热毒,舒舒服服迎夏天

立夏后,每天杯子里泡点它,清肝明目排热毒,舒舒服服迎夏天

江江食研社
2026-05-06 18:10:55
山东男篮出局,上海男篮晋级半决赛,外援0分,陈林坚21分尽力了

山东男篮出局,上海男篮晋级半决赛,外援0分,陈林坚21分尽力了

替补席看球
2026-05-09 21:36:05
桑德兰0-0曼联,赛后评分:不是B费第一,曼联31号排第一

桑德兰0-0曼联,赛后评分:不是B费第一,曼联31号排第一

凌空倒钩
2026-05-10 00:09:02
一直不认可机动车必须礼让行人这个扯蛋的行为!

一直不认可机动车必须礼让行人这个扯蛋的行为!

北京作家编剧肥猪满圈
2026-05-08 17:59:46
乌拉圭河底捞出纳粹巨鹰,重达半吨鹰爪抓万字符,20年没人敢处置

乌拉圭河底捞出纳粹巨鹰,重达半吨鹰爪抓万字符,20年没人敢处置

老谢谈史
2026-04-26 21:14:12
62岁阿姨肺癌离世,常年吃清蒸鱼、炖汤,医生:祸根藏在2个细节里

62岁阿姨肺癌离世,常年吃清蒸鱼、炖汤,医生:祸根藏在2个细节里

摇感军事
2026-05-09 20:59:39
光纤+存储芯片+商业航天+算力租赁,深度布局的10家潜力公司

光纤+存储芯片+商业航天+算力租赁,深度布局的10家潜力公司

粤语音乐喷泉
2026-05-08 18:52:45
2026-05-10 02:47:00
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
3160176文章数 7276关注度
往期回顾 全部

科技要闻

美国政府强力下场 苹果英特尔达成代工协议

头条要闻

演员文章面馆大火后又开酒吧 多位明星到场母亲也现身

头条要闻

演员文章面馆大火后又开酒吧 多位明星到场母亲也现身

体育要闻

成立128年后,这支升班马首夺顶级联赛冠军

娱乐要闻

50岁赵薇脸颊凹陷沧桑得认不出!

财经要闻

多地号召,公职人员带头缴纳物业费

汽车要闻

轴距加长/智驾拉满 阿维塔07L定位大五座SUV

态度原创

手机
教育
时尚
房产
亲子

手机要闻

华为Mate 90首发!鸿蒙7定档6月:和iOS安卓三分天下

教育要闻

天津女教师怼家长!完整录音曝光,老师很嚣张,饭碗恐不保了

伊姐周六热推:电视剧《喀什恋歌》;电视剧《低智商犯罪》......

房产要闻

低价甩卖!海口这个地标商业,无人接盘!

亲子要闻

妈妈说女儿休学一年,我教她3个笨办法

无障碍浏览 进入关怀版