网易首页 > 网易科技 > 网易科技 > 正文

业内:测试越来越难以评估AI水平,普通人更难感受AI进步

0
分享至

1月13日消息,2024年底,OpenAI前员工凯尔西·派珀(Kelsey Piper)撰文探讨人工智能的“规模定律”是否已遇到技术瓶颈。她认为,这个问题并不像许多人认为的那样重要:现有的人工智能系统已经足够强大,能够深刻改变我们的世界。无论规模定律是否成立,未来几年都将由人工智能的进步主导。

文章发布不到一周后,OpenAI推出了年终更新,其中包括最新的大语言模型o3。虽然o3未能完全证明“规模定律”在未来是否仍是推动人工智能进步的核心规律,但它无疑粉碎了“人工智能发展已陷入瓶颈”的说法。

o3的表现极其令人惊叹。为了更好地理解它的非凡之处,我们需要先探讨如何科学地评估人工智能系统。

人工智能标准化测试

如果想比较两个语言模型的表现,需要用一组它们以前从未接触过的问题进行测试。然而,这远比听起来要困难得多,因为这些模型在训练过程中已经接触了大量文本,早已覆盖了绝大多数测试内容。

因此,机器学习研究员通常会设计基准测试,来评估人工智能系统在数学、编程、阅读与理解文本等多个任务上的表现,并将这些结果与人类进行比较。曾经,人们用美国数学奥林匹克竞赛的题目以及物理、生物和化学问题测试人工智能。

问题在于,人工智能发展得太快,不断打破基准测试的限制。一旦人工智能在某个基准测试中表现优异,人们便认为该测试已经“饱和”,无法再有效区分模型的能力,因为几乎所有模型都能取得接近满分的成绩。

2024年堪称“基准测试如太平洋般饱和”的一年。过去,人们用名为GPQA的基准测试人工智能。这种测试涵盖物理、生物和化学领域,难度高到即使是相关领域的博士生也很难得分超过70%。但如今,人工智能的表现已超过了相关领域的博士,因此该基准已失去评估意义。

人工智能模型在数学奥林匹克预选赛中的表现也不输顶尖人类选手。一个名为MMLU的基准测试用于评估模型的语言理解能力,涵盖多个领域。现在,最好的模型已经“攻克”了这个基准。另一个名为ARC-AGI的测试原本被设计为极其困难,旨在衡量通用的人类智能水平,但经过调优后,o3在这一测试中取得了令人瞩目的88%得分。

我们仍然可以设计更多的基准测试。然而,以人工智能的进步速度来看,每个新基准的有效期可能只有短短几年。更重要的是,新的基准测试越来越需要衡量人工智能在超出人类能力范围的任务上的表现,才能准确描述其能力和局限性。

当然,人工智能仍可能犯一些低级且令人恼火的错误。但如果你最近六个月没有关注人工智能的最新发展,或者只体验过免费版的语言模型,那么你可能高估了它们犯错的频率,也低估了它们在高难度、智力密集型任务上的能力。

隐而不见的进步

《时代》杂志最近的一篇文章指出,人工智能的发展并非“触及瓶颈”,而是变得愈发隐蔽,其主要进展以一种难以察觉的方式快速推进。

每个人都能明显区分出5岁孩子学算术和高中生学微积分之间的差别,因此这类进步显得直观且清晰。但多数人无法分辨一名数学专业大一新生与世界顶级数学家之间的差距,因此人工智能在这些高阶领域的进步往往不被感知。

然而,这种进步的意义非凡。人工智能将通过自动化处理大量曾由人类完成的智力工作来深刻改变世界,而这一变革主要受以下三大因素驱动:

  • 1. 成本的持续下降
  • o3模型虽然取得了令人惊叹的成果,但处理复杂问题的成本可能高达1000美元。然而,2024年底中国推出的DeepSeek表明,以较低成本实现高质量表现是可能的。
  • 2. 人机交互方式的不断优化
  • 人类与人工智能的互动方式仍有巨大的创新空间。如何更高效地与人工智能互动、如何让人工智能自检,以及如何选择最适合特定任务的人工智能模型,都是未来改进的方向。例如,一个系统可以默认由中等性能的聊天机器人处理大多数任务,但当遇到复杂问题时,内部调用更昂贵的高端模型。这些改进更多属于产品开发而非技术突破,即便人工智能技术进步停止,这些改进仍将推动世界发生深远变化。
  • 3. 人工智能系统的日益智能化
  • 尽管有许多关于人工智能“发展停滞”的言论,但事实证明,人工智能仍在快速进步。最新的系统不仅在推理和问题解决方面表现更佳,而且越来越接近成为多领域的专家。在某种程度上,我们甚至尚未完全了解它们的智能水平,因为当人工智能的能力超越人类专家的评估范围后,现有测试方法已无法准确衡量其表现。

这三大驱动因素将塑造未来数年的人工智能发展,也充分展现了其重要性。不论你是否喜欢人工智能的崛起(就我个人而言,我并不认为这一世界性转型正在以负责任的方式推进),这三个领域都未遇到“瓶颈”,而且其中任何一个都足以持续改变我们的世界。(辰辰)

延伸阅读
相关推荐
热点推荐
1小时爆卖230亿!李书福杭州湾库里南,一夜间血洗BBA

1小时爆卖230亿!李书福杭州湾库里南,一夜间血洗BBA

象视汽车
2025-09-14 07:00:13
事关“十五五”规划纲要编制,全国人大常委会形成26份调研报告

事关“十五五”规划纲要编制,全国人大常委会形成26份调研报告

新京报
2025-09-13 16:33:47
沈阳马拉松冠军领奖时晕倒,目击者称下场休息后完成了颁奖,主办方:身体无大碍,下午还接受了采访

沈阳马拉松冠军领奖时晕倒,目击者称下场休息后完成了颁奖,主办方:身体无大碍,下午还接受了采访

极目新闻
2025-09-14 16:57:34
西贝员工用漏勺疏通厨房下水道引质疑,锅里有个相似漏勺,客服:工具选用和操作不规范

西贝员工用漏勺疏通厨房下水道引质疑,锅里有个相似漏勺,客服:工具选用和操作不规范

极目新闻
2025-09-14 12:32:56
罗马尼亚精锐被全歼,俄军撕碎北约“东大门”!欧洲陷入战略误判

罗马尼亚精锐被全歼,俄军撕碎北约“东大门”!欧洲陷入战略误判

纾瑶
2025-09-12 20:06:23
廖一帆爸爸硬刚家委会后续:孩子被区别对待,已和学校达成和解

廖一帆爸爸硬刚家委会后续:孩子被区别对待,已和学校达成和解

鋭娱之乐
2025-09-12 13:01:53
震惊!网传深圳水贝暴雷好多家金料商,有商家卷走260公斤,2亿多

震惊!网传深圳水贝暴雷好多家金料商,有商家卷走260公斤,2亿多

明月杂谈
2025-09-14 14:26:24
全红婵暨大报到!她向学院赠送签名奥运出场服,院长苏炳添接受捐赠

全红婵暨大报到!她向学院赠送签名奥运出场服,院长苏炳添接受捐赠

极目新闻
2025-09-14 09:48:49
西贝全国门店停止开放后厨参观,客服:为了保证门店正常运营和顾客就餐体验

西贝全国门店停止开放后厨参观,客服:为了保证门店正常运营和顾客就餐体验

极目新闻
2025-09-14 15:42:41
震动美国的刺杀案凶手,被慈父大义灭亲了!

震动美国的刺杀案凶手,被慈父大义灭亲了!

新民周刊
2025-09-14 13:06:37
被央视怒批、摇头晃脑、德不配位,难怪阅兵从不邀请“流量”明星

被央视怒批、摇头晃脑、德不配位,难怪阅兵从不邀请“流量”明星

书雁飞史oh
2025-09-12 16:09:35
44岁知名女演员官宣离婚!为挽救婚姻做过亲子鉴定,起诉离婚历时两年,连发9条微博回应

44岁知名女演员官宣离婚!为挽救婚姻做过亲子鉴定,起诉离婚历时两年,连发9条微博回应

鲁中晨报
2025-09-14 09:31:05
女子称贷款100多万中介收31万,多方回应,信息量很大

女子称贷款100多万中介收31万,多方回应,信息量很大

极目新闻
2025-09-14 08:55:17
请别再歌颂苦难了

请别再歌颂苦难了

深蓝夜读
2025-09-12 22:42:14
第一家中美合资药企卖了,一个时代结束了!

第一家中美合资药企卖了,一个时代结束了!

健识局
2025-09-13 23:28:00
库克谈iPhone 17 Pro首次引入VC均热板设计:我认为这算是苹果专属发明创新,或许只有苹果才能做到

库克谈iPhone 17 Pro首次引入VC均热板设计:我认为这算是苹果专属发明创新,或许只有苹果才能做到

FM93浙江交通之声
2025-09-14 12:55:53
从智能驾驶到智能汽车,复杂研发有没有“更简单”的路?

从智能驾驶到智能汽车,复杂研发有没有“更简单”的路?

智东西
2025-09-12 12:16:35
金正男之子金韩松:父亲根本不涉政治,始终嘱我彻底忘却身世羁绊

金正男之子金韩松:父亲根本不涉政治,始终嘱我彻底忘却身世羁绊

李博世财经
2025-09-14 09:45:17
省长讲第一课,广东全省市委书记、市长、县委书记、县长集中培训

省长讲第一课,广东全省市委书记、市长、县委书记、县长集中培训

新京报政事儿
2025-09-14 13:32:41
奔驰接娃姐后续:堵路原因曝光,官媒下场,更丢人的还在后面

奔驰接娃姐后续:堵路原因曝光,官媒下场,更丢人的还在后面

揽星河的笔记
2025-09-13 18:06:22
2025-09-14 18:00:49

科技要闻

L3级车型要来了!辅助驾驶迎重大利好

头条要闻

俄国防部:俄军在演习中发射"锆石"高超音速巡航导弹

头条要闻

俄国防部:俄军在演习中发射"锆石"高超音速巡航导弹

体育要闻

3次遭争议判罚!皇马向FIFA投诉西甲裁判

娱乐要闻

彪悍那英,大女人与旧妻子

财经要闻

西贝贾国龙,“错”得离谱

汽车要闻

混动狂潮 835马力V12 阿斯顿·马丁的最后浪漫

态度原创

教育
房产
数码
手机
公开课

教育要闻

父母应该多听听孩子的想法

房产要闻

「世界冠军×人居升阶」白鹅潭CLD封面,实力馥见人生新高度!

数码要闻

拯救者 R9000P 游戏本 8945HX 版新增 5070 Ti 款,12999 元起

手机要闻

魅族 22 搭载 Flyme AIOS 2,全新 AI 按键支持快捷功能一键启动

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版
×