网易首页 > 网易号 > 正文 申请入驻

科学家设定衡量人工智能能力新标准

0
分享至

参考消息网5月1日报道 据美国趣味科学网站4月27日报道,人工智能(AI)可以在执行短时长任务时轻松超越人类,但是如果我们希望AI成为真正的智慧系统,耗时较长的任务才是真正需要应对的挑战。

科学家设计出一种衡量AI系统能力的新方法,能考察AI在完成复杂任务时以多快的速度击败人类或者与人类比肩。

为量化AI模型的性能提升幅度,这一最新研究成果建议科学界参考人类完成相关任务的时长,然后基于AI完成相同任务的时长来衡量AI系统的能力。3月30日,该科研团队在美国预印本文献库公布了研究成果,但论文尚未经过同行评审。

科研团队发现,对于人类需要不到4分钟就能完成的任务,AI模型的成功率能够达到近100%。可是,对于人类需要超过4个小时才能完成的任务,AI模型的成功率仅有10%。对于耗时较长的任务,早期AI模型的表现不如最新版本。

这是意料之中的发现。科研团队强调说,在过去6年里,每7个月,通用型AI以50%的可靠度完成任务的时长就能增加一倍。

这项研究发现,AI的“注意力持续时间”正在迅速延长。根据这一发展趋势,科研团队预计(前提是其研究结果能够普遍适用于现实世界的任务),到2032年,AI就可以自动完成人类软件开发一个月的工作量。

科研团队表示,为更好地理解AI能力的快速提升幅度及其对社会的潜在影响和风险,这项研究可以建立与现实世界结果相关联的新标尺,以便“对AI工作表现的绝对状态、而非单纯的相对状态给出有意义的解读”。

这一潜在的新标尺便于我们更好地理解AI系统的实际智慧和能力。

资深AI专家索罗布·卡泽鲁尼安说:“这一标尺本身不太可能改变AI的发展进程,但是对于一些很适合使用AI的任务而言,它可以跟踪AI系统在这些类型任务上的发展速度。”

卡泽鲁尼安说:“基于人类完成特定任务所需的时长来评估AI,为衡量AI的智力水平和通用能力提供了有趣的替代性指标。首先,没有任何单一指标可以体现我们对‘智慧’的理解。其次,完成一项耗时较长的任务而不出现漂移或错误的可能性微乎其微。第三,这种方法可以直接衡量我们希望利用AI去完成的那些任务类型,即解决复杂的人类问题。”

可以认为,除了提出新的衡量标尺,上述最新论文的最大影响在于其凸显AI系统的发展速度,以及不断提升的AI处理长时长任务的能力。有鉴于此,美国电气电子工程师学会会员、奇点大学AI伦理工程师埃莉诺·沃森预测说,能够处理各种任务的通用型智能体将很快出现。

沃森说:“到2026年,我们将看到AI变得越来越通用,可以一整天或者一个星期都在处理各种任务,而不是仅仅处理经过严格限定的短时长任务。”

沃森认为,对企业而言,这一发展趋势会促成能够承担大量专业工作的AI系统。这不仅可以降低成本,提高效率,还便于人类专注于更具创造性、战略性和人际交往性的任务。

沃森还指出:“对消费者而言,AI将从简单的助手演变为可靠的个人助理,能够连续数日乃至数周处理复杂的生活任务,比如制定旅行计划、监测身体健康状况或者管理金融投资,而且只需要最低程度的监督。”

事实上,AI处理各类长时长任务的能力,很可能在今后几年对社会互动方式和社会利用AI的方式产生重大影响。(编译/刘子彦)


3月31日在汉诺威工博会开幕式上,参观者正在谈论展台上的人工智能机器人。(法新社)

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
乾隆写给英国国王的信,全文976字愚昧无比,今藏于大英博物馆

乾隆写给英国国王的信,全文976字愚昧无比,今藏于大英博物馆

诗词中国
2025-09-14 14:20:54
东风导弹泄密案:间谍郭万钧一家三口,全部被处以死刑

东风导弹泄密案:间谍郭万钧一家三口,全部被处以死刑

冰点历史
2025-07-15 09:33:13
继德国之后,英国也开始贴出“中文标语”?中国游客:不能够接受

继德国之后,英国也开始贴出“中文标语”?中国游客:不能够接受

古事寻踪记
2025-08-13 07:37:39
9月起企退丧葬待遇改新算法!遗属补助没取消,咋算、咋领说清楚

9月起企退丧葬待遇改新算法!遗属补助没取消,咋算、咋领说清楚

梦史
2025-09-16 12:02:12
特朗普连开3枪,公开否定台湾属于中国?国民党递出一句决绝的话

特朗普连开3枪,公开否定台湾属于中国?国民党递出一句决绝的话

墨兰史书
2025-09-15 07:05:10
1945年,2万日军携1万妇女躲进长白山,80年间下落不明,去哪了?

1945年,2万日军携1万妇女躲进长白山,80年间下落不明,去哪了?

小豫讲故事
2025-09-15 06:00:17
伤亡比例1比5!多布罗皮利亚被围俄军弹尽粮绝,大批士兵主动投降

伤亡比例1比5!多布罗皮利亚被围俄军弹尽粮绝,大批士兵主动投降

知兵
2025-09-14 22:02:52
孩子升入初三才恍然大悟:限制小孩用不用电子设备,差距超乎想象

孩子升入初三才恍然大悟:限制小孩用不用电子设备,差距超乎想象

今天说故事
2025-09-15 18:20:00
阿玛尼之夜:高叶太敢穿,李沁职场范,朱珠翻车,张小斐很瘦很高

阿玛尼之夜:高叶太敢穿,李沁职场范,朱珠翻车,张小斐很瘦很高

章眽八卦
2025-09-07 09:41:22
医生怒斥:别再拿这些瓶子装东西了,患癌再后悔就晚了!赶紧扔掉

医生怒斥:别再拿这些瓶子装东西了,患癌再后悔就晚了!赶紧扔掉

39健康网
2025-09-03 16:00:56
吃饭也要讲政治

吃饭也要讲政治

特例的猫
2025-09-16 16:59:35
汪小菲就是从这个时候开始不爱大S的,鄙夷不屑的眼神太明显了!

汪小菲就是从这个时候开始不爱大S的,鄙夷不屑的眼神太明显了!

小娱乐悠悠
2025-08-30 06:53:53
今天才知道,每天关机一次和长期不关机,对手机的区别,别做错了

今天才知道,每天关机一次和长期不关机,对手机的区别,别做错了

小俊分享
2025-09-11 21:18:54
暖心!乔丹为80岁高中看门人还清房贷、支付医疗费

暖心!乔丹为80岁高中看门人还清房贷、支付医疗费

雷速体育
2025-09-16 09:47:09
91大神秦先生回顾:御用女主正脸照片泄露,多位女子形象崩塌

91大神秦先生回顾:御用女主正脸照片泄露,多位女子形象崩塌

就一点
2025-08-26 00:24:30
“精液”真的可以预防妇科疾病吗?医生直言:不要害羞,早知早好

“精液”真的可以预防妇科疾病吗?医生直言:不要害羞,早知早好

医者荣耀
2025-09-09 12:05:05
上海退休教授进敬老院5个月后去世,护工挺着大肚子含泪:这是遗书

上海退休教授进敬老院5个月后去世,护工挺着大肚子含泪:这是遗书

罪案洞察者
2025-08-08 11:40:08
高速惊现SUV蛇形走位,交警:驾驶员突发疾病

高速惊现SUV蛇形走位,交警:驾驶员突发疾病

现代快报
2025-09-15 17:46:05
傅声 穿个牛仔也这么美

傅声 穿个牛仔也这么美

东方不败然多多
2025-09-16 15:35:26
敲诈十亿撕毁合同,土耳其又来假意合作,中国:同样错误不会再犯

敲诈十亿撕毁合同,土耳其又来假意合作,中国:同样错误不会再犯

百科密码
2025-08-01 17:32:38
2025-09-17 04:39:00
参考消息 incentive-icons
参考消息
参考消息官方网易号
197963文章数 728857关注度
往期回顾 全部

科技要闻

2025款Apple Watch全系怎么选?

头条要闻

女子误触“化骨水”去世:有两个孩子 今年孩子刚成家

头条要闻

女子误触“化骨水”去世:有两个孩子 今年孩子刚成家

体育要闻

2022:勇士归来,库里的第四个冠军

娱乐要闻

李小璐母亲:女儿嫁给贾乃亮我好后悔

财经要闻

扩大服务消费 9部门提出5方面19条举措

汽车要闻

智能体豪华旅行车 享界S9T30.98万元起售

态度原创

数码
时尚
旅游
教育
本地

数码要闻

AMD 推三款锐龙 PRO 9X45 商用桌面处理器,可选 6 / 8 / 12 核心

纽约时装周:美+好穿,不可错过的4大趋势

旅游要闻

热闻|清明假期将至,热门目的地有哪些?

教育要闻

当孩子放下手机时,说明现实足够美好

本地新闻

云游忻州 | 慢时光!老街逛吃,烟火气超上头~

无障碍浏览 进入关怀版