斯坦福2025 AI指数出炉！中美AI终极对决差距仅剩0.3%，DeepSeek领衔|推理|智能体|中美ai|云计算费用|deepseek|查尔斯·维利尔斯·斯坦福

分享至

新智元报道

编辑：编辑部

【新智元导读】2025年斯坦福HAI报告重磅发布，456页深度剖析全球AI领域的最新趋势：中美顶级模型性能差距缩至0.3%，以DeepSeek为代表的模型强势崛起，逼近闭源巨头；推理成本暴降，小模型性能飙升，AI正变得更高效、更普惠。

就在刚刚，每年都备受瞩目的斯坦福AI指数报告，重磅发布了！

这份报告由斯坦福大学以人为本AI研究员发布，代表着每年AI领域最核心和前沿的动向总结。

今年，这份报告长达456页，抛出不少惊人观点。

比如，如今在2025年，中美顶级AI模型的性能差距已经缩小到了0.3%（2023年，这一数字还是20%），中国模型正在快速追赶美国的领先地位！

而DeepSeek领衔的开放权重模型，更是以1.7%之差，逼宫各大闭源巨头。前者和后者的差距，已经由2024年的8%，缩小至2025年的1.7%。

当然，目前从行业主导企业来看，美国仍然领先于中国。在2024年，90%的知名AI模型来自企业，美国以40个模型领先，中国有15个。

更明显的一个趋势，就是如今大模型的性能已经趋同！在2024年，TOP1和TOP10的模型的差距能有12%，但如今，它们的差距已经越来越小，锐减至5%。

十二大亮点

最新的斯坦福HAI两篇博文中，浓缩了2025年AI指数报告的十二大亮点。

1. AI性能再攀高峰，从基准测试到视频生成全面突破

2023年，研究人员推出了MMMU、GPQA和SWE-bench等新基准来测试先进AI系统的极限。

仅一年后，性能便大幅提升：AI在三项基准得分分别飙升18.8%、48.9%和67.3%。

不仅如此，AI在生成高质量视频方面取得重大突破，甚至，在某些场景下AI智能体甚至超越人类表现。

·更有用智能体崛起

2024年发布的RE-Bench基准测试，为评估AI智能体复杂任务能力设立了严苛标准。

数据显示：在短期任务（2小时内）场景下，顶级AI系统的表现可达人类专家的4倍；但当任务时限延长至32小时，人类则以2:1的优势反超。

值得注意的是，AI已在特定领域，如编写特定类型代码，展现出与人类相当的专业水平，且执行效率更胜一筹。

2. 美国领跑顶尖模型研发，但中国与之差距逐渐缩小

2024年，美国产出40个重要AI模型，远超中国的15个和欧洲的3个。

然而，中国模型在性能上的差距正加速缩小：MMLU等基准测试中，中美AI差异从两位数缩小至近乎持平。

同时，中国在AI学术论文和专利申请量上持续领跑，中东、拉美和东南亚地区也涌现出具有竞争力的模型。

3. AI正变得高效且普惠，推理成本暴降280倍

随着小模型性能提升，达到GPT-3.5水平的推理成本在两年间下降280倍，硬件成本以每年30%的速度递减，能效年提升率达40%。

更令人振奋的是，开源模型性能突飞猛进，部分基准测试中与闭源模型的差距从8%缩至1.7%。

· 大模型使用成本持续走低，年降幅最高900倍

在MMLU基准测试中达到GPT-3.5水平（MMLU准确率64.8%）的AI模型调用成本，已从2022年11月的20美元/每百万token，骤降至2024年10月的0.07美元/每百万token（谷歌DeepMind的Gemini-1.5-Flash-8B模型），18个月内AI成本下降280倍。

视具体任务需求，LLM推理服务价格的年降幅可达9-900倍不等。

·小模型性能显著提升，参数暴减142倍

2022年，在大规模多任务语言理解（MMLU）基准测试中，得分超60%的最小模型是 PaLM，参数量为5400亿。

到了2024年，微软Phi-3-mini仅用38亿参数，就取得了同样的实力。

这代表，两年多的时间里模型参数减少了142倍。

4. 科技巨头称霸AI前沿，但竞争白热化

2024年，近90%的重要模型源自企业，学术界则保持基础研究优势。

模型规模呈指数增长：训练算力每5个月翻番，数据集每8个月扩容一倍。

值得注意的是，头部模型性能差距显著缩小，榜首与第十名得分差已从11.9%降至5.4%。

5. AI逻辑短板，推理能力仍是瓶颈

采用符号推理方法的AI系统，能较好解决IMO问题（虽未达人类顶尖水平），但LLM在MMMU等复杂推理任务中表现欠佳，尤其不擅长算术推导和规划类强逻辑性任务。

这一局限影响了其在医疗诊断等高风险场景的应用可靠性。

6. 大厂ALL in AI，投资与采用率创双纪录

科技大厂们，正全力押注AI。

2024年，美国私营AI投资达1091亿美元，约为中国（93亿）的12倍、英国（45亿）的24倍。

生成式AI势头尤猛，全球私募投资达339亿美元（同比增18.7%）。

与此同时，企业AI采用率从55%升至78%。研究证实，AI不仅能提升生产力，多数情况下还可缩小劳动力技能差距。

更引人注目的是，将生成式AI应用于至少一项业务职能的企业数量激增——从2023年的33%跃升至去年的71%，增幅超一倍。

7. AI荣膺科学界最高荣誉，摘诺奖桂冠

2024年，两项诺贝尔奖分别授予深度学习理论基础（物理学）和蛋白质折叠预测（化学）研究，图灵奖则花落强化学习领域。

8. AI教育普及加速，但资源差距仍存

全球2/3国家已或计划开展K-12计算机科学教育，但非洲地区受限于电力等基础设施，推进缓慢。

美国81%的计算机教师认为AI应纳入基础课程，但仅47%具备相应教学能力。

9. AI正深度融入日常生活

从医疗到交通，AI正快速从实验室走向现实。

1995年，FDA批准了第一款AI赋能的医疗器械。

截至2024年8月，FDA已批准950款AI医疗设备——较2015年的6款和2023年的221款，增长迅猛。

而在自动驾驶领域，汽车已脱离实验阶段：美国头部运营商Waymo每周提供超15万次无人驾驶服务。

10. 全球AI乐观情绪上升，但地区差异显著

中国（83%）、印尼（80%）和泰国（77%）民众对AI持积极态度，而加拿大（40%）、美国（39%）等发达国家则相对保守。

值得关注的是，德国（+10%）、法国（+10%）等原怀疑论国家态度明显转变。

11. 负责任AI生态发展不均

虽然AI安全事件激增，但主流模型开发商仍缺乏标准化评估体系。

HELM Safety、AIR-Bench和FACTS等新基准为事实性与安全性评估提供工具。

企业普遍存在「认知与行动脱节」，而各国政府加速协作：2024年，经合组织、欧盟等国际机构相继发布聚焦透明度、可信度的治理框架。

·问题AI数量跃升

根据权威AI危害追踪数据库「AI事件库」（AI Incidents Database）统计，2024年全球AI相关危害事件激增至233起，创下历史新高，较2023年暴涨56.4%。

其中既包括深度伪造私密图像案件，也涉及聊天机器人疑似导致青少年自杀等恶性事件。

尽管该统计未能涵盖全部案例，但已清晰揭示AI技术滥用正在呈现惊人增长态势。

12. 全球监管力度持续加强

2024年美国联邦机构颁布59项AI法规，涉及部门数量翻倍。

75个国家立法机构提及AI频次同比增长21.3%，较2016年增长九倍。

投资方面：加拿大承诺24亿美元，中国设立475亿美元半导体基金，法国投入1090亿欧元，印度拨款12.5亿美元，沙特启动千亿美元级的「超越计划」。

详细亮点解读

下面，我们将摘出报告中的亮点内容，提供更详细的解读。

中美差距仅剩0.3%

翻开502页的报告，最吸睛的部分，莫过于中美AI差异这部分了。

报告中强调，虽然2024年，美国在顶尖AI模型的研发上依然领先，但中美模型之间的性能差距，正在迅速缩小！

为了衡量AI领域过去一年演变的全球格局，HAI特意用AI指数，列出了具有代表性的模型所属国家，美国依然居首。

数据显示，在2024年，美国机构以拥有40个知名模型领先，远远超过中国的15个和欧洲的3个。

总体来说，模型发布总量已经下降，可能是多个因素共同导致的，比如训练规模日益庞大、AI技术日益复杂，开发新模型方法的难度也在增加。

AI模型已成为算力巨兽

·参数趋势

简单的说，参数就是AI模型通过训练学到的一些数字，这些数字决定了模型如何理解输入和怎样输出。

AI的参数越多需要的训练数据也越多，但同时性能也更厉害。

从2010年代初开始，模型的参数量就蹭蹭往上涨，这背后是因为模型设计得越来越复杂、数据更容易获取、硬件算力也更强了。

更重要的是，大模型确实效果好。

下图用了对数刻度，方便大家看清楚AI模型参数和算力近年来的爆炸式增长。

随着模型参数数量的增加，训练所需的数据量也在暴涨。

2017年发布的Transformer模型，掀起了大型语言模型的热潮，当时它用了大约20亿个token来训练。

到了2020年，GPT-3 175B模型的训练数据已经飙到了约3740亿个token。

而Meta在2024年夏天发布的模型Llama 3.3，更是用了大约15万亿个token来训练。

根据Epoch AI的数据，大型语言模型的训练数据集规模大约每八个月翻一倍。

训练数据集越来越大，导致的训练时间也变得越来越长。

像Llama 3.1-405B这样的模型，训练大概需要90天，这在如今已经算是「正常」的了。

谷歌在2023年底发布的Gemini 1.0 Ultra，训练时间大约是100天。

相比之下，2012年的AlexNet就显得快多了，训练只花了五六天，而且AlexNet当时用的硬件还远没有现在的先进。

·算力趋势

「算力」指的是训练和运行AI模型所需的计算资源。

最近，知名AI模型的算力消耗呈指数级增长。据Epoch AI估计，知名AI模型的训练算力大约每五个月翻一番。

这种趋势在过去五年尤为明显。

去年12月，DeepSeek V3一经推出就引发了广泛关注，主要就是因为它在性能上极其出色，但用的计算资源却比许多顶尖大型语言模型少得多。

下图1.3.17比较了中国和美国知名AI模型的训练算力，揭示了一个重要趋势：美国的顶级AI模型通常比中国模型需要多得多的计算资源。

·推理成本

推理成本，指的是对一个已训练模型进行查询所需的费用，通常以「每百万tokens的美元价格」来衡量。

这份报告中AI token的价格数据，来源于Artificial Analysis和Epoch AI的API定价专有数据库，而价格是根据输入与输出token的价格按3:1的权重平均计算得出的。

可以看出，单位性能的AI成本正在显著下降。

而Epoch AI估计，根据不同任务类型，大型语言模型的推理成本每年下降幅度可达9倍至900倍不等。

虽然如此，想要获得来自OpenAI、Meta和Anthropic的模型，仍需支付不小的溢价。

·训练成本

虽然很少有AI公司披露具体的训练成本，但这个数字普遍已达到数百位美元。

OpenAI CEO奥特曼曾表示，训练GPT-4的训练成本超过了1亿美元。

Anthropic的CEO Dario Amodei指出，目前正在训练的模型，成本约为10亿美元。

DeepSeek-V3的600万美元，则打破了新低。

图1.3.24展示了基于云计算租赁价格的部分AI模型的训练成本估算。

图1.3.25展示了AI指数所估算的所有AI模型的训练成本。

在2024年，Epoch能估算的少数模型之一，就是Llama 3.1-405B，训练成本约为1.7亿美元。

另外，AI模型的训练成本与其计算需求之间存在直接的关联。如图1.3.26所示，计算需求更大的模型训练成本显著更高。

参考资料：YZNH

https://www.nature.com/articles/d41586-025-01033-y

https://hai.stanford.edu/ai-index/2025-ai-index-report

https://hai.stanford.edu/news/ai-index-2025-state-of-ai-in-10-charts

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手机 / 数码

房产 / 家居

斯坦福2025 AI指数出炉！中美AI终极对决差距仅剩0.3%，DeepSeek领衔

星舰13飞全中！20颗真卫星出舱

河南退役军人被冒名顶岗获赔10万 5年后单位发函追讨

河南退役军人被冒名顶岗获赔10万 5年后单位发函追讨

拿过两个金球奖，却说它只值10英镑

王祖贤这么缺钱吗 竟然把自己卖给了AI

滥用市场支配地位 携程被罚没51.79亿元

轿跑姿态+大空间/标配655km续航 奇瑞风云A9置换价10.68万起

态度原创

117GB！《FF14》NS2版确认首月免费 8月4日上线

跟着影视去旅行：西游篇

夏天裤子别越买越多，还是黑色长裤最不挑人，百搭舒适又显瘦

林俊杰破例献曲，只因看了她的画！这个“狂野少女”到底什么来头？看完我头皮发麻！

37人抢1套房…海棠湾资产拍卖，爆了！

王祖贤这么缺钱吗竟然把自己卖给了AI

滥用市场支配地位携程被罚没51.79亿元

轿跑姿态+大空间/标配655km续航奇瑞风云A9置换价10.68万起