网易首页 > 网易号 > 正文 申请入驻

斯坦福2026AI指数报告发布:5张图看懂AI正在发生什么

0
分享至


(来源:麻省理工科技评论)

如果你在关注 AI 新闻,你大概率已经看得眼花缭乱了——AI 堪比淘金热;AI 只是经济泡沫;AI 在抢走你的工作;AI 连个钟表都看不懂……

近期,在这些声音中,斯坦福大学以人为本人工智能研究所(HAI)撰写的“AI 年度成绩单” 新鲜出炉,以帮我们在噪音之中拨云见雾。

尽管有预测说 AI 发展已经触及到了天花板,这份报告显示顶尖模型仍在持续变强。人们拥抱 AI 的速度,比当年接受个人电脑和互联网时都要快。AI 公司创造收入的速度超过了以往任何一轮技术浪潮中的公司,与此同时它们也在数据中心和芯片上砸下数千亿美元。而用来衡量 AI 的基准测试、用来约束 AI 的政策,以及整个就业市场,都在艰难地追赶 AI 的步伐。AI 在狂奔,而剩下的人还在找鞋穿。

这种速度是有代价的。全球 AI 数据中心的耗电量如今可达 29.6 吉瓦,足以在用电高峰时支撑整个纽约州的运转。仅 OpenAI 的 GPT-4o 每年的耗水量,就可能超过 1200 万人的饮用水需求。这些数据揭示了一项演进速度超过我们管理能力的技术。下面我们来看看这份报告里几个关键点。



中美水准并驾齐驱

Arena 是一个由用户驱动的 AI 模型排行榜,它让用户把相同的提示词同时丢给不同的大语言模型,再根据大量用户的投票结果给模型排名。根据 Arena 的最新数据,美国和中国在 AI 模型性能上几乎并驾齐驱。2023 年初,OpenAI 凭借 ChatGPT 遥遥领先,但随着 Google 和 Anthropic 相继推出自己的模型,这一差距在 2024 年逐渐缩小。2025 年 2 月,中国的 DeepSeek 推出的 R1 一度追平了当时美国最顶尖的模型 ChatGPT。截至 2026 年 3 月,Anthropic 位居榜首,紧随其后的是 xAI、Google 和 OpenAI。DeepSeek 和阿里巴巴等中国模型也不遑多让。如今顶尖 AI 模型之间的差距已经被压缩到发丝之细,它们正在转而比拼成本、可靠性和实际可用性。


(来源:麻省理工科技评论)

报告指出,美国和中国的 AI 优势各有不同。美国拥有更强的 AI 模型、更多的资本,以及估计约 5427 个数据中心,是任何其他国家的 10 倍以上;中国则在 AI 研究论文、专利和机器人领域领先。

随着竞争加剧,OpenAI、Anthropic 和 Google 等公司已经不再公开模型的训练代码、参数数量和数据集规模。“关于如何预测模型的行为,我们有很多东西还不清楚,”南加州大学计算机科学家、该报告的合著者约兰达·吉尔(Yolanda Gil)说。她表示,这种不透明让独立研究人员很难研究如何让 AI 模型变得更安全。



模型能力进步飞快

尽管有声音预测发展会进入平台期,AI 模型却一直在变得越来越强。按某些衡量标准,它们在旨在测试博士级科学、数学和语言理解能力的考试上已经达到或超过了人类专家的水平。针对 AI 模型的软件工程基准测试 SWE-bench Verified,顶尖成绩从 2024 年的约 60% 跃升到 2025 年的近 100%。2025 年,一个 AI 系统独立完成了天气预报。

“这项技术持续在进步,完全没有进入平台期,我被震惊到了。”吉尔说。


(来源:麻省理工科技评论)

不过 AI 在其他很多领域仍然吃瘪。由于模型是通过处理海量文本和图像来学习,而不是通过亲历物理世界,它们表现出一种“参差不齐的智能”:机器人仍处于起步阶段,只能完成 12% 的家务任务;自动驾驶汽车发展稍快,Waymo 已经在美国五个城市运行,百度的 Apollo Go 也在中国各地接送乘客。AI 也在向法律、金融等专业领域扩展,但目前还没有哪个模型能主导这些领域



基准测试已经落后

这些进步数据需要保留余地。斯坦福报告指出,用来追踪 AI 进展的基准测试正被模型飞速突破,已经跟不上节奏。有的基准本身就做得不够严谨——一个流行的数学能力基准测试的错误率高达 42%。有的则容易被“作弊”:比如当模型直接在基准测试的数据上接受了训练,它可以学会拿高分而并没有真的变聪明。

由于 AI 实际使用的方式与它被测试的方式很少一致,基准测试的好成绩并不总能转化为真实世界的表现。而对于 AI 智能体和机器人这类复杂的交互式技术,相应的基准测试几乎还不存在。

AI 公司也越来越少公开自己的模型是如何训练的,独立测试得出的结论有时与公司自己报告的不一致。“很多公司不公开自己的模型在某些基准上的表现,尤其是那些涉及‘负责任 AI’的基准,”吉尔说,“你不公开某项基准的表现,这件事本身可能就说明了一些问题。”



AI 开始影响就业

进入主流视野不到三年,AI 的用户已经覆盖了全球超过一半的人口,普及速度超过了个人电脑和互联网。估计有 88% 的机构组织在使用 AI,大学生里每五人有四人用过 AI。

部署还处于早期,AI 对就业的影响很难量化。不过一些研究显示,AI 已经开始影响特定行业的年轻从业者。斯坦福经济学家 2025 年的一项研究显示,22 到 25 岁软件开发者的就业人数自 2022 年以来下降了近 20%。这一下降未必能全部归因于 AI,更广泛的宏观经济环境也可能是原因,但 AI 看起来确实在其中扮演了角色


(来源:麻省理工科技评论)

雇主们表示招聘可能会继续收紧。麦肯锡 2025 年的一项调查显示,三分之一的组织预计 AI 将在未来一年内缩减他们的员工规模,尤其是服务与供应链运营和软件工程领域。报告引用的研究数据显示,AI 在客户服务领域提升了 14% 的生产力,在软件开发领域提升了 26%,但对那些更依赖判断力的任务,生产力收益并未显现。整体上看,AI 对经济的更大影响还需要更多时间才能看清楚。



公众专家判断相左

全球范围来看,人们对 AI 既乐观又焦虑:报告引用的益普索(Ipsos)调查显示,59% 的人认为 AI 带来的好处会多于坏处,52% 的人则说 AI 让他们紧张。

值得注意的是,专家和普通公众对 AI 未来的判断差异悬殊,最大的鸿沟出现在对就业的预期上:73% 的专家认为 AI 将对人们的工作方式产生正面影响,但美国公众里持此观点的只有 23%。在 AI 对教育和医疗的影响上,专家同样比公众更乐观,但双方都认同 AI 将损害选举和人际关系。


(来源:麻省理工科技评论)

在受访国家中,美国人对本国政府监管 AI 的信心最低——这是益普索另一项调查的结论。担心联邦 AI 监管力度不够的美国人,多于担心监管过度的人。



各国政府艰难立法

各国政府都在挣扎着为 AI 立规矩,过去一年里确实有一些进展。欧盟《人工智能法案》的首批禁令已生效,禁止在预测性警务和情感识别中使用 AI。日本、韩国和意大利也通过了各自的国家级 AI 法律。美国联邦政府则走向了去监管化,特朗普总统签署行政命令,试图限制各州对 AI 的监管权。

尽管联邦层面是这样的动作,美国各州立法机构仍然通过了创纪录的 150 项 AI 相关法案。加州通过了具有标志性意义的立法,包括 SB 53 法案,要求 AI 模型开发者履行安全披露义务,并为举报者提供保护。纽约通过了 RAISE 法案,要求 AI 公司公开安全规范并报告重大安全事件。


(来源:麻省理工科技评论)

但吉尔说,尽管立法活动频繁,监管仍然跑在技术后面,因为我们对 AI 本身的理解还不够。“各国政府在监管 AI 上很谨慎,因为……我们很多事情都没搞清楚,”她说,“我们对这些系统还没有很好的把握。”

https://www.technologyreview.com/2026/04/13/1135675/want-to-understand-the-current-state-of-ai-check-out-these-charts/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
热那亚公交车上演“活春宫”!女司机出言劝阻,反遭乘客当众掌掴

热那亚公交车上演“活春宫”!女司机出言劝阻,反遭乘客当众掌掴

意大利华人网0039
2026-04-16 00:10:01
苹果放出狠话:只要打开这个开关,目前全球无人能黑进你的 iPhone

苹果放出狠话:只要打开这个开关,目前全球无人能黑进你的 iPhone

小兔子发现大事情
2026-04-13 14:13:39
接下来的广州,地铁、燃气、水费都要涨价?

接下来的广州,地铁、燃气、水费都要涨价?

南沙部落
2026-04-15 09:53:21
狐狸尾巴藏不住!以为能“毁掉”全红婵,不料自己先被扒个底朝天

狐狸尾巴藏不住!以为能“毁掉”全红婵,不料自己先被扒个底朝天

小椰的奶奶
2026-04-14 13:29:01
张继科一天连上两次热搜!复出德国打传奇杯,却被曝出公司出事了

张继科一天连上两次热搜!复出德国打传奇杯,却被曝出公司出事了

东方不败然多多
2026-04-16 00:13:42
雷军发文:小米电池安全测试1230项,超国标要求25倍!网友:诺贝尔数学奖必须颁发给雷总

雷军发文:小米电池安全测试1230项,超国标要求25倍!网友:诺贝尔数学奖必须颁发给雷总

大白聊IT
2026-04-16 00:06:13
拜仁vs皇马前瞻:皇马两大将缺席 拜仁主场反击战可不败晋级

拜仁vs皇马前瞻:皇马两大将缺席 拜仁主场反击战可不败晋级

智道足球
2026-04-15 12:45:14
黄灿灿自曝为了防止《浪姐》恶意剪辑,每天都会梳不一样的头发

黄灿灿自曝为了防止《浪姐》恶意剪辑,每天都会梳不一样的头发

韩小娱
2026-04-13 16:42:00
日本地下偶像见面会竟然“0人到场”,女团们哭了的照片惹人心疼后人气暴涨

日本地下偶像见面会竟然“0人到场”,女团们哭了的照片惹人心疼后人气暴涨

日本物语
2026-04-15 20:57:13
何超蕸去世仅1天,内部员工再爆大瓜,有位长期伴侣仅冰山一角

何超蕸去世仅1天,内部员工再爆大瓜,有位长期伴侣仅冰山一角

以茶带书
2026-04-15 15:05:34
斯波直言三球该被驱逐!鲍尔准绝杀戴大金链:轰30+10自我救赎

斯波直言三球该被驱逐!鲍尔准绝杀戴大金链:轰30+10自我救赎

颜小白的篮球梦
2026-04-15 11:00:09
随着辽宁取胜、山东输球,CBA乱了:广东北京争四强,辽宁冲前八

随着辽宁取胜、山东输球,CBA乱了:广东北京争四强,辽宁冲前八

中国篮坛快讯
2026-04-16 00:02:16
广东男子生财路:低价买凶宅,改造后再出售,200套净赚5000万

广东男子生财路:低价买凶宅,改造后再出售,200套净赚5000万

诡谲怪谈
2025-03-25 16:22:55
别抢石油了!美高官急呼特朗普大误判,中国砸千亿布局科技已超车

别抢石油了!美高官急呼特朗普大误判,中国砸千亿布局科技已超车

诗酒趁的年华
2026-04-15 08:29:50
事实证明,面馆只是表象,离婚多年的文章,终于找到了自己翻身路

事实证明,面馆只是表象,离婚多年的文章,终于找到了自己翻身路

削桐作琴
2026-04-15 15:37:47
效仿张本智和!松岛辉空豪言要战胜中国队夺冠 两名队友都笑了

效仿张本智和!松岛辉空豪言要战胜中国队夺冠 两名队友都笑了

念洲
2026-04-15 15:32:56
安妮和梅姨回应“审美降级”的差评,怼得我哑口无言

安妮和梅姨回应“审美降级”的差评,怼得我哑口无言

gogoboi
2026-04-14 23:28:21
谁能想到,苏林上任首访中国,竟是自家人都摆不平的大麻烦

谁能想到,苏林上任首访中国,竟是自家人都摆不平的大麻烦

动物奇奇怪怪
2026-04-15 13:19:42
“中年返贫三件套”,正在吞掉一代人的存款

“中年返贫三件套”,正在吞掉一代人的存款

阅读第一
2026-04-15 08:34:45
钱再多有啥用!“展昭”何家劲的现状,给所有老年男性提了个醒

钱再多有啥用!“展昭”何家劲的现状,给所有老年男性提了个醒

夏末moent
2026-03-21 20:01:15
2026-04-16 00:56:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16580文章数 514879关注度
往期回顾 全部

科技要闻

ChatGPT十亿用户又怎样?Anthropic直接贴脸

头条要闻

美航母及1万多士兵将抵中东 特朗普:战争或持续至11月

头条要闻

美航母及1万多士兵将抵中东 特朗普:战争或持续至11月

体育要闻

三球准绝杀戴大金链:轰30+10自我救赎

娱乐要闻

谢娜现身环球影城,牵手女儿温馨有爱

财经要闻

业绩失速的Lululemon:"健康"人设崩塌?

汽车要闻

空间丝毫不用妥协 小鹏GX首发评测

态度原创

本地
时尚
旅游
艺术
公开课

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

赫本爱穿的伞裙,好优雅!

旅游要闻

辽宁大连星海湾广场,135万元承包给私人旅拍:野生摄影师被驱赶

艺术要闻

看!波兰超模阿里亚纳的惊艳写真,身材让人心动不已!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版