斯坦福2026AI指数报告发布：5张图看懂AI正在发生什么|麻省|吉尔|美国|机器人|人工智能|查尔斯·维利尔斯·斯坦福

斯坦福2026AI指数报告发布：5张图看懂AI正在发生什么

2026-04-15 14:21:07　来源: DeepTech深科技

北京举报

分享至

（来源：麻省理工科技评论）

如果你在关注 AI 新闻，你大概率已经看得眼花缭乱了——AI 堪比淘金热；AI 只是经济泡沫；AI 在抢走你的工作；AI 连个钟表都看不懂……

近期，在这些声音中，斯坦福大学以人为本人工智能研究所（HAI）撰写的“AI 年度成绩单” 新鲜出炉，以帮我们在噪音之中拨云见雾。

尽管有预测说 AI 发展已经触及到了天花板，这份报告显示顶尖模型仍在持续变强。人们拥抱 AI 的速度，比当年接受个人电脑和互联网时都要快。AI 公司创造收入的速度超过了以往任何一轮技术浪潮中的公司，与此同时它们也在数据中心和芯片上砸下数千亿美元。而用来衡量 AI 的基准测试、用来约束 AI 的政策，以及整个就业市场，都在艰难地追赶 AI 的步伐。AI 在狂奔，而剩下的人还在找鞋穿。

这种速度是有代价的。全球 AI 数据中心的耗电量如今可达 29.6 吉瓦，足以在用电高峰时支撑整个纽约州的运转。仅 OpenAI 的 GPT-4o 每年的耗水量，就可能超过 1200 万人的饮用水需求。这些数据揭示了一项演进速度超过我们管理能力的技术。下面我们来看看这份报告里几个关键点。

中美水准并驾齐驱

Arena 是一个由用户驱动的 AI 模型排行榜，它让用户把相同的提示词同时丢给不同的大语言模型，再根据大量用户的投票结果给模型排名。根据 Arena 的最新数据，美国和中国在 AI 模型性能上几乎并驾齐驱。2023 年初，OpenAI 凭借 ChatGPT 遥遥领先，但随着 Google 和 Anthropic 相继推出自己的模型，这一差距在 2024 年逐渐缩小。2025 年 2 月，中国的 DeepSeek 推出的 R1 一度追平了当时美国最顶尖的模型 ChatGPT。截至 2026 年 3 月，Anthropic 位居榜首，紧随其后的是 xAI、Google 和 OpenAI。DeepSeek 和阿里巴巴等中国模型也不遑多让。如今顶尖 AI 模型之间的差距已经被压缩到发丝之细，它们正在转而比拼成本、可靠性和实际可用性。

（来源：麻省理工科技评论）

报告指出，美国和中国的 AI 优势各有不同。美国拥有更强的 AI 模型、更多的资本，以及估计约 5427 个数据中心，是任何其他国家的 10 倍以上；中国则在 AI 研究论文、专利和机器人领域领先。

随着竞争加剧，OpenAI、Anthropic 和 Google 等公司已经不再公开模型的训练代码、参数数量和数据集规模。“关于如何预测模型的行为，我们有很多东西还不清楚，”南加州大学计算机科学家、该报告的合著者约兰达·吉尔（Yolanda Gil）说。她表示，这种不透明让独立研究人员很难研究如何让 AI 模型变得更安全。

模型能力进步飞快

尽管有声音预测发展会进入平台期，AI 模型却一直在变得越来越强。按某些衡量标准，它们在旨在测试博士级科学、数学和语言理解能力的考试上已经达到或超过了人类专家的水平。针对 AI 模型的软件工程基准测试 SWE-bench Verified，顶尖成绩从 2024 年的约 60% 跃升到 2025 年的近 100%。2025 年，一个 AI 系统独立完成了天气预报。

“这项技术持续在进步，完全没有进入平台期，我被震惊到了。”吉尔说。

（来源：麻省理工科技评论）

不过 AI 在其他很多领域仍然吃瘪。由于模型是通过处理海量文本和图像来学习，而不是通过亲历物理世界，它们表现出一种“参差不齐的智能”：机器人仍处于起步阶段，只能完成 12% 的家务任务；自动驾驶汽车发展稍快，Waymo 已经在美国五个城市运行，百度的 Apollo Go 也在中国各地接送乘客。AI 也在向法律、金融等专业领域扩展，但目前还没有哪个模型能主导这些领域

基准测试已经落后

这些进步数据需要保留余地。斯坦福报告指出，用来追踪 AI 进展的基准测试正被模型飞速突破，已经跟不上节奏。有的基准本身就做得不够严谨——一个流行的数学能力基准测试的错误率高达 42%。有的则容易被“作弊”：比如当模型直接在基准测试的数据上接受了训练，它可以学会拿高分而并没有真的变聪明。

由于 AI 实际使用的方式与它被测试的方式很少一致，基准测试的好成绩并不总能转化为真实世界的表现。而对于 AI 智能体和机器人这类复杂的交互式技术，相应的基准测试几乎还不存在。

AI 公司也越来越少公开自己的模型是如何训练的，独立测试得出的结论有时与公司自己报告的不一致。“很多公司不公开自己的模型在某些基准上的表现，尤其是那些涉及‘负责任 AI’的基准，”吉尔说，“你不公开某项基准的表现，这件事本身可能就说明了一些问题。”

AI 开始影响就业

进入主流视野不到三年，AI 的用户已经覆盖了全球超过一半的人口，普及速度超过了个人电脑和互联网。估计有 88% 的机构组织在使用 AI，大学生里每五人有四人用过 AI。

部署还处于早期，AI 对就业的影响很难量化。不过一些研究显示，AI 已经开始影响特定行业的年轻从业者。斯坦福经济学家 2025 年的一项研究显示，22 到 25 岁软件开发者的就业人数自 2022 年以来下降了近 20%。这一下降未必能全部归因于 AI，更广泛的宏观经济环境也可能是原因，但 AI 看起来确实在其中扮演了角色

（来源：麻省理工科技评论）

雇主们表示招聘可能会继续收紧。麦肯锡 2025 年的一项调查显示，三分之一的组织预计 AI 将在未来一年内缩减他们的员工规模，尤其是服务与供应链运营和软件工程领域。报告引用的研究数据显示，AI 在客户服务领域提升了 14% 的生产力，在软件开发领域提升了 26%，但对那些更依赖判断力的任务，生产力收益并未显现。整体上看，AI 对经济的更大影响还需要更多时间才能看清楚。

公众专家判断相左

全球范围来看，人们对 AI 既乐观又焦虑：报告引用的益普索（Ipsos）调查显示，59% 的人认为 AI 带来的好处会多于坏处，52% 的人则说 AI 让他们紧张。

值得注意的是，专家和普通公众对 AI 未来的判断差异悬殊，最大的鸿沟出现在对就业的预期上：73% 的专家认为 AI 将对人们的工作方式产生正面影响，但美国公众里持此观点的只有 23%。在 AI 对教育和医疗的影响上，专家同样比公众更乐观，但双方都认同 AI 将损害选举和人际关系。

（来源：麻省理工科技评论）

在受访国家中，美国人对本国政府监管 AI 的信心最低——这是益普索另一项调查的结论。担心联邦 AI 监管力度不够的美国人，多于担心监管过度的人。

各国政府艰难立法

各国政府都在挣扎着为 AI 立规矩，过去一年里确实有一些进展。欧盟《人工智能法案》的首批禁令已生效，禁止在预测性警务和情感识别中使用 AI。日本、韩国和意大利也通过了各自的国家级 AI 法律。美国联邦政府则走向了去监管化，特朗普总统签署行政命令，试图限制各州对 AI 的监管权。

尽管联邦层面是这样的动作，美国各州立法机构仍然通过了创纪录的 150 项 AI 相关法案。加州通过了具有标志性意义的立法，包括 SB 53 法案，要求 AI 模型开发者履行安全披露义务，并为举报者提供保护。纽约通过了 RAISE 法案，要求 AI 公司公开安全规范并报告重大安全事件。

（来源：麻省理工科技评论）

但吉尔说，尽管立法活动频繁，监管仍然跑在技术后面，因为我们对 AI 本身的理解还不够。“各国政府在监管 AI 上很谨慎，因为……我们很多事情都没搞清楚，”她说，“我们对这些系统还没有很好的把握。”

https://www.technologyreview.com/2026/04/13/1135675/want-to-understand-the-current-state-of-ai-check-out-these-charts/

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.