斯坦福423页AI报告出炉：中国模型追平美国，95%企业AI投资零回报|机器人|大模型|人工智能|斯坦福大学|stanford|查尔斯·维利尔斯·斯坦福

分享至

文丨博阳

编辑丨徐青阳

美国时间4月13日，斯坦福大学以人为本人工智能研究所（Stanford HAI）发布了《2026年AI指数报告》，全文长达423页。

这份自2017年起每年发布的报告，已成为追踪人工智能行业发展最为全面的年度文献，涵盖模型发布数量与来源、行业资本流入、劳动力市场变化、能源消耗与环境影响，以及公众态度等多个维度。

2026年的报告揭示了一个能力正在快速突破的行业，同时也引发了关于环境成本、技术透明度以及谁能从这项技术中真正受益的紧迫问题。

以下为最新报告精炼版：

01 最后2.7%的博弈，中美模型性能的“平权时代”

长期以来，硅谷一直被视为全球AI的唯一心脏，但斯坦福报告的最新数据显示，这种单极格局正在土崩瓦解。

根据研究机构Epoch AI的数据，截至2026年3月，由达里奥·阿莫迪（Dario Amodei）领导的美国顶级AI公司Anthropic，其最先进的模型在性能表现上，仅仅领先中国最强竞争对手2.7个百分点。

中美顶级模型的性能差异

这场博弈的转折点发生在2025年2月，当时DeepSeek发布的R1模型曾短暂追平美国模型，随后双方进入了高频的性能更迭期。今年报告的主编内斯特·佩罗（Nestor Maslej）指出，这种领先优势的反复变化，标志着全球顶级AI研发已经进入了某种程度的“技术平权”。

从产出数量上看，美国在2025年发布了50个值得注意的顶级模型，中国则紧随其后发布了30个。

2003年至2025年，美国、中国和欧洲的AI模型数量呈上升趋势

虽然在模型绝对数量和私人投资总额上，美国分别以2859亿美元对中国的124亿美元保持领先，但报告特别提醒政策制定者：账面数字极大地低估了中国的真实投入。

如果我们将时间线拉长，自2000年以来，中国政府引导基金向AI公司注入的资金累计已达约1840亿美元。这种“政府搭台、企业唱戏”的模式，让中国在AI出版物数量、论文引用份额以及专利授权量上，已经稳稳坐上了全球第一的宝座。

国际机器人联合会数据显示，2024年中国安装工业机器人29.5万台，日本约4.45万台，美国3.42万台，德国和韩国数量显著低于中国

更具实感的数据是，中国在工业机器人的安装量上也已领先世界，这预示着AI在物理世界的具身化落地，中国可能拥有更深厚的工程基础。

一些美国科技公司的高管对这种差距的缩小感到不安，他们将原因归结为中国在开源代码利用和工程实现上的高效。但不可否认的是，当技术指标的差距缩小到个位数时，未来的竞争将不再仅仅取决于谁的模型多跑了几个百分点，而在于谁能率先将这些昂贵的算力转化为实际的生产力收益。

到目前为止，美国拥有的AI研究人员和开发者数量远超任何其他国家，但这些专家流入美国的速度正在急剧放缓。自2017年以来，移居美国的AI学者数量下降了89%。这种下降正在加速，仅在过去一年中就下降了80%。

流入美国AI人才数量大幅减缓

02 美国保住了算力王座，却把压力甩给了电网

美国在数据中心领域保持明确领先。

Stanford HAI统计的数据显示，美国拥有5427个数据中心，中国为449个，德国和英国各约525个。截至2025年底，AI数据中心总电力容量达到29.6吉瓦，约等于纽约州峰值用电需求。

Epoch AI以英伟达H100e计算能力为标尺的统计显示，英伟达GPU占全球AI总计算能力60%以上，谷歌与亚马逊分列第二、第三位

数据中心规模扩张伴随显著环境成本。Stanford HAI报告估计，训练xAI的Grok 4模型产生约72,816吨二氧化碳当量，高于约1000辆普通汽车整个生命周期的碳排放。

AI指数指导委员会联合主任雷·佩罗（Ray Perrault）表示，该估计值基于公开报道、xAI声明等非可验证来源，需谨慎解读。他同时指出，Epoch AI独立估计Grok 4排放量约为14万吨二氧化碳。

报告估计，2012年至2025年训练AI模型的碳排放量呈上升趋势，2025年Grok 3和Grok 4训练导致排放量急剧增加

模型推理同样产生环境负担。Stanford HAI报告估算，仅GPT-4o推理的年用水量即超过1200万人的饮用水需求。推理效率最低的模型碳排放量比最高者高出10倍以上。DeepSeek的V3模型响应中等长度提示时消耗约23瓦，Claude 4 Opus消耗约5瓦。

地方社区开始抵制数据中心建设。根据数据中心观察组织报告，过去两年，因地方反对，价值640亿美元的美国数据中心项目被搁置或延迟，24个州至少142个活动团体参与组织。

公开反对数据中心项目的民选官员中，55%为共和党人，45%为民主党人。在弗吉尼亚州沃伦顿，每位投票支持亚马逊数据中心项目的镇议会成员均在此后选举中落选。

部分抵制事件涉及暴力。印第安纳波利斯市一位公开支持其选区数据中心改规划的市议员表示，4月初有人向其住宅开枪，门阶留下一张手写纸条，内容为“不要数据中心”。该议员与其八岁儿子未受伤。

03 AI模型性能快速提升，特定任务存明显短板

过去十年，AI模型性能提升速度较快，且呈加速趋势。

多模态大语言模型攻克新基准的速度接近基准发布速度。AI智能体的进化速度最为显著，OSWorld基准（测试自主计算机使用）和SWE-Bench Verified基准（测试自主编码）的得分曲线均呈现最陡峭走势。

2012年至2025年，AI在多项任务上的性能基准与人类表现对比。比如在图像分类早期超越人类表现，2020年代后模型在多任务上接近或超越人类基线

“人类终极考试”基准包含各领域专家贡献的问题，代表各领域最难题。2025年报告显示，排名最高的OpenAI的o1模型仅正确回答8.8%的问题，此后准确率升至38.3%。

而截至2026年4月，得分最高的模型——Anthropic的Claude Opus 4.6和谷歌的Gemini 3.1 Pro——已超过50%。

佩罗提示，基准测试未必反映了模型的现实表现：“知道法律推理基准有75%的准确率，并不能告诉我们它在律师事务所活动中的适应程度。”

医学领域AI应用取得进展。过去两年，关于AI用于药物发现的出版物数量增加一倍以上。多模态生物医学AI（用于同时检查医学图像与文本）的出版物数量为两年前的2.7倍。

2018年至2025年，关于AI用于药物发现的出版物数量持续增加，近两年增速加快然而，AI模型在部分常见任务上表现较差。

ClockBench测试多模态LLM读取模拟时钟的能力，表现最佳的OpenAI GPT-5.4准确率仅为50%。多数模型得分显著更低。Anthropic的Claude Opus 4.6正确读取时间的准确率仅为8.9%，而该模型在其他基准上通常得分较高。

ClockBench测试显示，不同LLM读取模拟时钟的准确率从8.9%至50.60%不等，整体表现偏低

佩罗表示，这反映了一个更普遍的问题：“有一条研究线索表明，当系统被问到语言与其他模态（如图像或音频语调）组合的问题时，语言部分承担了绝大部分负担，甚至到了完全忽略非语言信息的程度。”

此外，机器人在家务处理方面仍有较大差距。报告指出，它们在折叠衣物或洗碗等真实家务中只有12%的成功率。

04 AI在医学研究领域飞奔

医学领域的人工智能应用取得较快进展。报告显示，过去两年，关于人工智能用于药物发现的出版物数量增加了一倍以上。多模态生物医学人工智能——用于同时检查医学图像和文本——的出版物数量是两年前2.倍。

2025年出现了一些值得关注的项目。人工智能首次端到端运行了完整的天气预报流程，接收原始实时气象观测数据，直接输出最终的温度、风力和湿度等预报结果。天文学也建立了其首个基础模型，实现了1台望远镜的自动化观测。

在临床应用中，从患者就诊中自动生成临床记录的工具在2025年得到广泛采用。在多个医院系统中，医生报告称撰写笔记的时间减少了高达83%，并且职业倦怠感显著降低。

但报告同时指出，除某些工具外，临床人工智能的价值仍然是推测性的。一项对500多项临床人工智能研究的回顾发现，近一半的研究依赖于考试式问题而非真实的患者数据，只有5%的研究使用了真实的临床数据。

医疗人工智能的另一个增长领域是数据孪生，即个体患者的动态、数据链接的计算表征，能够随时间更新并支持预测、模拟和治疗优化。相关出版物数量从2015年的接近于零上升至2025年的372篇。

05 员工效率提升，企业却未变强

聚焦具体任务，AI带来可测量的效率提升。

客户支持智能体每小时解决的问题增加近15%，使用GitHub Copilot的软件开发人员完成的拉取请求增加26%，使用AI进行广告创作的营销团队人均产出跃升50%。

扩大至美国整体经济，2025年生产率增长率为2.7%，约为前十年平均水平的两倍。但报告中引用的宾夕法尼亚大学沃顿预算模型测算，AI对全要素生产率的实际贡献仅为0.01个百分点，接近为零。

报告同时指出，对于需要更深层次推理的任务，AI工具反而降低人工效率。使用AI辅助的开源开发者速度降低19%。依赖AI进行学习的工程师未显示速度提升，反而受到研究人员所称的“学习惩罚”，可能随时间推移减缓其专业发展。

劳动力数据显示明确的代际差异。到2025年9月，美国22至25岁软件开发者的就业人数较2022年峰值下降近20%，而年长开发者数量持续增长。客户支持智能体领域呈现类似趋势。

2021年至2025年，按年龄划分的软件开发人员和客户支持人员配置趋势显示，早期职业工作者人数明显减少，中后期职业工作者人数稳定或增加

这些变化难以从宏观趋势中完全分离。报告指出，多类职业失业率均在上升，且与预期相反，AI暴露程度最低的工人失业率上升幅度高于AI暴露程度最高的工人。三分之一的受访公司预计，受AI影响，未来一年将缩减员工规模。

独立于斯坦福报告的一项麻省理工学院研究发现，95%的企业在约350至400亿美元的AI投资中获得零回报，仅5%的企业成功实现工具的大规模部署。

06 全球AI投资大幅增长，美国领先但中国被低估

根据AI分析公司Quid的数据，2025年全球AI投资创下新纪录，超过5810亿美元，是2024年2530亿美元的两倍多，并超过2021年3600亿美元的纪录。

与2021年由并购主导不同，2025年创纪录投资由私人投资主导。大部分资金流向美国，2025年美国AI投资超过3440亿美元。

Quid数据显示，2013年至2025年全球企业AI投资按活动类型划分。2021年投资上升，2022至2024年下降，2025年再次大幅增长

但报告再次强调，仅基于私人投资的比较可能低估了中国投入人工智能的资金量。报告估计，2000年至2023年间，有9120亿美元的政府引导基金被部署到包括人工智能在内的各个行业。

从计算能力来看，根据Epoch AI以英伟达H100e计算能力为标尺的统计，英伟达GPU占全球人工智能总计算能力的60%以上，谷歌与亚马逊分列第二、第三位。全球人工智能计算能力自2022年以来每年增长3.3倍，自2021年（追踪的第一年）以来总计算能力增长了30倍。

07 AI普及速度创纪录，采用率超过互联网

生成式人工智能的普及速度依然在加速。报告指出，生成式人工智能在三年内达到53%的人口采用率，比个人电脑或互联网的普及速度更快。不过普及速度因国家而异，并与人均GDP密切相关。

部分国家的普及率高于预期，新加坡达到61%，阿联酋达到54%。美国以28.3%的普及率排名第24位。到2026年初，生成式人工智能工具对美国消费者的估计年价值达到1720亿美元，每位用户的平均价值在2025年至2026年间增长了两倍。

在教育领域，五分之四的美国高中生和大学生将人工智能用于与学校相关的任务。但只有一半的初中和高中制定了人工智能政策，只有6%的教师表示这些政策是清晰的。正规教育明显滞后于人工智能的使用。

在软件开发平台方面，截至2025年，GitHub上人工智能相关项目数量升至558万个，比2020年增长约五倍，比2024年增长23.7%。至少获得10颗星的项目数量及人工智能项目获得星标总数均以类似速度增长。开源代理式人工智能软件OpenClaw已获得35.2万颗星。

2011年至2025年，GitHub AI项目数量从接近零增长至558万，近年增速显著加快

佩罗表示：“GitHub使用的强度很可能与人工智能使用的强度高度相关。”但根据活动追踪网站“野外代理”（Agents in the Wild）的数据，多数GitHub活动仍由人类执行。

过去十年，人工智能相关的计算机科学出版物数量从10.2万篇增至25.8万篇，增长一倍以上。截至2024年，超过68%的出版物源自学术界，政府和工业界分别贡献约11.5%和12.5%。增长主要由机器学习、计算机视觉和生成式人工智能领域驱动。

08 美国人对AI最谨慎

根据益普索（Ipsos）调查数据，认为AI“利大于弊”的受访者比例从2024年的55%升至59%。表示对AI有“很好理解”的受访者比例从67%略升至68%。同时，52%的受访者表示使用AI的产品和服务让他们感到“紧张”。

2022年至2025年，针对多项AI相关观点陈述的受访者回应分布显示，乐观情绪小幅上升，负面情绪亦有所增加

不同国家之间存在显著差异。中国、马来西亚、泰国、印度尼西亚、新加坡等东南亚国家对人工智能的态度趋于积极。年度同比积极转变最大的国家为德国（增长12%）、法国（10%）和荷兰（10%）。哥伦比亚负面转变最大（下降6%），与往年趋势相反。

美国公众的态度比其他国家更为谨慎。只有33%的美国人期望人工智能能让他们的工作变得更好，而全球平均水平为40%。美国公众在预期人工智能将消除工作岗位而非创造新岗位方面，比例也是最高的。

对政府人工智能监管的信任度差异更大。新加坡81%的受访者表示信任监管机构，美国仅为31%，在调查国家中位居末位。多个欧洲国家和日本也呈现较低信任度。亚洲和南美洲国家的信任度普遍较高。

各国对政府AI监管信任度调查显示，新加坡以81%居首，美国以31%垫底

根据皮尤（Pew）调查，专家与公众对人工智能未来的看法存在较大分歧。73%的专家认为人工智能将对人们的工作方式产生积极影响，而只有23%的美国公众持相同观点。

专家对人工智能在教育和医疗保健方面的影响也比公众更为乐观，但两群体一致认为人工智能会对选举和个人关系产生负面影响。

报告还指出了一个值得关注的趋势：当今最有能力的现代模型，也是透明度最低的。庞大而强大的模型集中在最大的人工智能公司手中，这些公司越来越多地将训练代码、数据集大小和参数数量保密。

基础模型透明度指数衡量主要人工智能公司在披露其模型训练数据、计算量、能力、风险和使用政策细节方面的开放程度。报告显示，该指数平均得分从2024年的58分降至今年的40分。指数特别指出，最有能力的模型披露的信息往往最少。

报告合著者、南加州大学计算机科学家约兰达·吉尔（Yolanda Gil）表示：“关于预测模型行为，我们有很多东西不知道。”她说，这种缺乏透明度的状况使得独立研究人员难以研究如何让人工智能模型更安全。

结语

斯坦福大学的AI指数报告，本质上是一本人类与机器共同书写的“生存手册”。它用423页的内容告诉我们：AI已经过了那个可以靠讲故事生存的童年期，它正步入成年，面临着商业回报、能源瓶颈和全球主权竞争的成年礼。

对于中国而言，2.7%的差距意味着追赶已经完成，接下来的任务是利用专利授权和工业机器人的规模优势，率先在实体经济中收割AI的红利。

对于美国而言，如何守住私人投资的创新活力，并解决高昂的成本与能源问题，将决定其能否继续引领下一个十年。

这场4050亿美元的豪赌刚刚进入下半场，而最终的赢家，未必是那个算力最强的，但一定是那个最能适应物理现实、最能回馈商业价值的。

特约编译金鹿对本文亦有贡献

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手机 / 数码

房产 / 家居

斯坦福423页AI报告出炉：中国模型追平美国，95%企业AI投资零回报

离职同事"炼化"成AI?这届公司不需要活人了

大陆公布十项惠台政策 民进党当局拟封杀

大陆公布十项惠台政策 民进党当局拟封杀

他做对了所有事，却被整个职业网坛放逐了八年

宋祖儿刘宇宁恋情大反转 正主火速辟谣

许家印受审当庭表示认罪悔罪

售12.99万起/续航2000km 风云T9L上市

态度原创

干细胞抗衰4大误区,90%的人都中招

现代融合 自然灵动

初中数学，根式运算

秦岚：风里荡秋千

12吨巧克力有难，全网化身超级侦探添乱

大陆公布十项惠台政策民进党当局拟封杀

大陆公布十项惠台政策民进党当局拟封杀

宋祖儿刘宇宁恋情大反转正主火速辟谣

现代融合自然灵动