这是斯坦福大学李飞飞团队发布的《 2025 AI Index Report 》,被认为 是迄今规模最大、最综合的AI发展数据报告。报告全面揭示了这一变革的核心趋势:AI已从实验室走向日常生活,成为推动经济、科学与全球治理的关键力量。
报告非常具体地呈现出一些事实,例如,中美在AI行业的投资有着较大差距。2024年全球私人AI投资达2523亿美元,其中生成式AI吸引339亿美元,同比增长18.7%。美国以1091亿美元投资领先,是排名第二的中国(93亿美元)的11.7倍,是英国(45亿美元)的24.1倍。
自2013年以来的综合数据也呈现出类似的趋势。近十年来,美国新融资的人工智能公司数量约为中国的4.3倍,英国的7.9倍。
这表明中国在AI投资方面仍有较大上升空间。
虽然美国在顶尖模型开发上仍居主导(2024年推出40个标志性模型),但中国在论文总量、专利授权等方面领先,并在模型质量上快速追赶。中东、拉美和东南亚地区也开始推出有影响力的模型,全球AI生态呈现多极化趋势。
斯坦福大学李飞飞团队发现,人工智能在多项严苛测试中表现卓越。2024年,模型在MMMU、GPQA和SWE-bench等新基准上的性能分别提升18.8%、48.9%和67.3%。
更值得关注的是,AI的使用成本大幅降低:达到GPT-3.5水平的模型推理成本在18个月内下降超过280倍。同时,开源模型几乎追平闭源模型,性能差距从8%缩小至1.7%,技术民主化进程加速。
伴随AI能力的增长,信任与安全挑战日益严峻。2024年报告的AI相关事故数量增加56.4%,但企业对负责任AI风险的认知与实际行动间仍存在差距。对此,全球政策制定者展现出强烈紧迫感。
美国年度AI法规数量翻倍,全球AI立法总量较2016年激增9倍。从OECD到联合国,国际组织密集出台治理框架,共同聚焦透明度、公平性与可信度。
本文节选自李飞飞团队发布的《2025年人工智能指数报告》,由「白鲸实验室」编辑整理,若需要完整版PDF报告,可在文末留言“PDF”。
第一章:研究与开发
2024年12月,DeepSeek推出了V3模型,引起了广泛关注,尤其是因为该模型在计算资源需求远低于许多领先的大语言模型的情况下,实现了卓越的性能。
下图比较了美国和中国一些标志性机器学习模型的训练计算量,凸显了一个关键趋势:美国顶级人工智能模型的计算量,通常远高于中国模型。
根据Epoch AI的研究数据,自2021年底以来,中文前十大语言模型的训练算力年均增长约3倍,显著低于2018年以来全球其他地区5倍的年均增速。
![]()
机器学习是 2023年人工智能领域最热门的研究主题,占总论文数量的 75.7%,其次是计算机视觉(47.2%)、模式识别(25.9%)和自然语言处理。过去一年中,关于生成式人工智能的论文数量出现了显著增长。
![]()
虽然追踪人工智能论文总量能提供一个对人工智能研究 活动的宏观视角,但聚焦于被引用次数最多的论文则能揭示该领域最具影响力的研究成果。这项分析揭示了一些最具开创性和影响力的人工智能研究正在哪里兴起。
今年,人工智能指数通过OpenAlex的引文数据,确定了2021年、2022年和2023年被引用次数最多的100篇人工智能论文。
2023年被引用次数最多的人工智能论文包括OpenAI的GPT-4技术报 告、Meta 的 Llama 2技术报告和谷歌的PaLM-E的技术报告。值得注意的是,由于引用的滞后性,今年报告中被引用次数最多的论文在今后的版本中可能会有所变化。
![]()
学术界持续产出最多被引的人工智能论文,2023年为42篇,2022年为27篇,2021年为34篇(图1.1.12)。
值得注意 的是,产业界贡献出现了显著下降,百强论文的数量从2021年的17篇和2022年的19篇,骤降至2023年的仅7篇。随着人工智能研究竞争日益激烈,许多行业人工智能实验室降低发表论文频率或减少披露研究细节。
![]()
下图展示了2021至2023年间,全球人工智能领域高被引百强论文来源机构分布情况。部分机构在图表中可能出现空白柱,这表明该机构在某年未发表百强论文。
此外,下图仅列出了排名前10的机构,尽管许多其他机构也做出了重要贡献。谷歌每年均位居榜首,但在2023年与清华大学并列第一,两者均有8篇论文入选百强。2023年,卡内基梅隆大学是排名最高的美国学术机构。
![]()
为了展示人工智能领域不断演变的地缘政治格局,人工智能指数展示了标志性模型所属的国家。下图展示了归因于研究人员所属机构所在地的标志性人工智能模型总数。
2024年,美国以40个标志性人工智能模型遥遥领先,中国以15个紧随其后,法国则有3个。2024 年全球主要经济体包括美国、中国和欧盟均报告说,2024年发布的标志性模型少于上一年。
自2003年以来,美国开发的模型数量超过了英国、中国和加拿大等其他主要国家。
![]()
下图分别呈现了2024年度及过去十年间,机器学习领域标志性模型研发的主导机构分布情况。2024年,贡献最多的是谷歌(7 个)、OpenA(I 7 个模型)和阿里巴巴(4 个)。
自2014年以来,谷歌以187个标志性模型遥遥领先,其次是 Meta(82个)和微软(39个)。在学术机构中,卡内基梅 隆大学(25个)、斯坦福大学(25个)和清华大学(22个)自2014年以来在标志性模型研发方面成果最多。
![]()
![]()
第二章:技术性能
本章节节人工智能指数呈现2024年人工智能领域的主要发展趋势和全方位高层视角览。
去年人工智能指数报告指出,人工智能已在多数任务中超越人类水平,仅剩竞赛级数学和视觉常识推理等少数例外。过 去一年间,人工智能系统持续改进,在多个原属挑战性的比较 基准中已实现对人类表现的超越。
下图展示了人工智能系统相对于人类基线在8类比较基准(涵盖 11 项任务,如图像分类、基础阅读理解等)中的进 展。人工智能指数团队为每类任务选取一个代表性基准,今年新增 GPQA Diamond 和 MMMU等新发布基准,以展示人工智能在极端复杂认知任务中的突破。
![]()
美国在人工智能研究和模型开发领域长期占据主导地位,中国则稳居第二。然而,最新证据表明,这一格局正在快速变 化,中国开发的模型正逐步赶超美国同行。
2023年,美国领先模型的性能显著优于中国模型。在 LMSYS Chatbot Arena平台上,2024年1月,美国顶尖模型的表现比中国最佳模型高出 9.3%。但到2025年2月,这一差距已缩小至仅 1.70%。2023年底,在 MMLU、 MMMU、MATH 和 HumanEval 等比较基准中,中美模型的性 能差距分别为 17.5、13.5、24.3 和 31.6 个百分点。
而到2024年底,这些差距已大幅缩小至 0.3、8.1、1.6 和 3.7 个百分点。DeepSeek-R1 的发布引发了广泛关注,除此之外,另一原因在于该公司称其成果仅需通常训练此类模型所需硬件资源的一小部分即可实现。除了对美国股市造成影响外,DeepSeek-R1 的发布还引发了对美国半导体出口管制有效性的质疑。
![]()
![]()
近年来,人工智能前沿模型的性能逐渐趋同,多家供应商现已能提供高性能模型。这一现象标志着自2022年底以来的转变——当时ChatGPT的发布(被广泛视为 AI 进入公众视野 的突破性事件)正值OpenAI和谷歌两大巨头主导市场的时期。
OpenA(I成立于2015年)于2020年发布GPT-3,而谷歌则在2022年推出了PaLM 和 Chinchilla等模型。
此后,新竞争者陆续入场,包括Meta 的 Llama 系列、Anthropic 的 Claude、High-Flyer 的 DeepSeek、Mistral 的 Le Chat 以及 xAI 的 Grok。随着竞争加剧,模型性能差距日益缩小。根据去年的人工智能指数报告,在广泛使用的人工智能排名平台Chatbot Arena Leaderboard上,第一名与第十名模型的性能差距为11.9%;而到2025年初,这一差距已缩小至5.4%。
同样,前两名模型的差异从2023 年的4.9%降至2024年的仅0.7%。人工智能领域竞争日趋激烈,印证了2023 年的预测:人工智能企业缺乏抵御竞争对手的技术护城河。
![]()
尽管 MMLU 备受关注,但它也面临显著批评。有观点认为,该比较基准包含错误或过于简单的问题,可能无法有效挑战日益先进的系统。2024 年,多伦多大学、滑铁卢大学和卡内基梅隆大学的研究团队推出了 MMLU-Pro,这是 MMLU 的一个更具挑战性的版本。
该版本剔除了噪声问题和琐碎问题,扩展了复杂题目,并增加了模型的选项数量。图中展示了MMLU-Pro的性能趋势,其中DeepSeek-R1以 84.0%的得分位居榜首。
![]()
第三章:负责人的人工智能
人工智能安全事件数据库(AI Incident Database, AIID)记录了人工智能的伦理滥用案例,例如自动驾驶汽车导致行人死亡,或人脸识别系统导致错误逮捕。
目前,事件追踪主要依赖公开的媒体报道,这意味着实际事件数量可能更 高,因为许多事件未被报告。2024年,相关讨论聚焦于优化“严重”事件的界定和追踪方法。尽管尚未就标准定义达成共识,但这些讨论凸显了更详细报告的必要性,以便更好地记录人工智能相关风险及其影响。
2024年,人工智能相关事件数量激增,达到创纪录的233起,较2023年增长56.4%。这一增长可能既反映了人工智能应用的扩大,也反映了 公众对其影响的关注度提升。此外,对人工智能认知度的提高可能也促使更多 事件被上报至相关数据库。
![]()
聊天机器人被指控导致青少年自杀(2024年10月23日)
一起针对 Character.AI 的诉讼引发了人们对人工智能聊 天机器人在心理健康危机中作用的担忧。该案件涉及一名14 岁男孩塞韦尔·塞策三世,他在与一个聊天机器人角色进行长时间互动后自杀身亡。据报道,该聊天机器人提供的建议具有危害性,而非提供支持或关键资源。
诉讼称,该聊天机器人虽设计用于与用户进行深度个人对话,但缺乏防 止危险互动的适当安全措施,并鼓励塞韦尔结束生命。图3.2.5显示了 Sewell 自杀当天与 “Dany”(聊天机器人角色)之间的对话截图。
该案件凸显了人工智能驱动的陪伴所面临的伦理挑战,以及在缺乏充分监管的情况下部署对话式人工智能的潜在风险。虽然人工智能聊天机器人可以提供情感支持,但批评者警告说,如果没有防护措施,它们可能会无意中强化有害行为,或者在用户处于困境时未能及时干预。
![]()
调查还询问了组织在未来一年内实施RAI方面的预计投资,包括资本支出和运营支出。此类投资的示例包括开发或购 买符合RAI原则的技术系统,以及与RAI的法律或专业服务。
大型企业——尤其是年收入超过100亿美元的企业—— 在 RAI 方面的总投资更高。值得注意的是,年收入在 100 亿美元至300亿美元之间的企业中有27%,年收入超过300亿美元的企业中有21%在RAI上投资了 1000万美元至2500万美元。
这些发现表明,大型企业更倾向于将 RAI 作为战略重点 并进行更高额的绝对投资。小型组织在RAI上的投入较少,但 许多组织仍报告了占收入比例较高的投资。
![]()
下图展示了各组织认为相关并正在积极应对的与人工智能相关的负责任的人工智能风险。网络安全(66%)、合规监管(63%)和个人隐私(60%)被列为最主要的关注点,然而,缓解措施的实施效果始终不足。
值得注意的是,在每个风险类别中,采取积极措施缓解风险的组织数量均少于那些认为这些风险具有相关性的组织。
在知识产权侵权(57%相关 ,38%缓解)和组织声誉(45%相关 ,29%缓解)方面,差距尤为明显。与可解释性(40%)和公平性(34%)相关的风险被较少比例的受访者选中,缓解率进一步下降至31%和26%。
![]()
第四章:经济
本节利用 Lightcast 提供的数据,分析劳动力市场对人工智能相关技能的需求。自2010年以来,Lightcast已分析了来自51,000多个网站的数亿条招聘信息,并筛选出其中要求人工智能技能的岗位。
下图显示了招聘岗位中对人工智能技能需求的占比情况。2024年,新加坡(3.2%)、卢森堡(2%)和中国香港(1.9%)在这一指标上处于领先地位。
2023年,美国招聘岗位中人工智能相关职位占比为1.4%,到 2024 年这一数字上升至1.8%。从2023年到2024年,大多数国家对人工智能技能 需求的岗位比例均有所增长。
![]()
![]()
下图比较了2024 年人工智能岗位招聘中需求最高的10项专业技能,与2012年至2014年期间的需求情况。
从绝对值来看,过去十年间每项专业技能的需求均有所增长,其中Python的显著增长凸显了其作为首选人工智能编程语言的地位。
![]()
2024年,美国招聘信息中提及生成式人工智能技能的岗位数量较上年增长超过三倍(图1)。图2展示了2024年和2023年发布的人工智能招聘信息中提及特定生成式人工智能技能的占比。
![]()
![]()
下图2023年至2024年美国各行业领域对人工智能技能需求岗位的占比。与2023年相比,2024年几乎所 有行业领域对人工智能技能需求岗位的占比均有所上升,公共行政领域除外。
与2023年相比,2024年几乎所有行业领域对人工智能技能需求岗位的占比均有所提升,公共行政领域除外。
![]()
美国在人工智能领域私人投资总额方面再次位居世界第一。2024年,美国投入的人工智能领域私人投资总额为1091亿美元,是排名第二的中国(93亿美元)的 11.7 倍,是英国(45亿美元)的24.1倍。
2024年跻身前15名的其他值得关注的国家包括瑞典(43 亿美元)、奥地利(15 亿美元)、荷兰 (11 亿美元)和意大利(9 亿美元)。
![]()
自2013年以来,汇总私人人工智能投资数据时,国家排名保持不变:美国以470.9亿美元的投资额位居榜首,中国以119.3亿美元紧随其后,英国以28.2亿美元排名第三。
过去十年中吸引大量人工智能投资的其他国家包括以色列(150亿美元)、新加坡(73亿美元)和瑞典(73亿美元)。
![]()
自2013年以来的综合数据也呈现出类似的趋势。近十年来,美国新融资的人工智能公司数量约为中国的4.3倍,英国的7.9倍。
![]()
各国工业机器人安装量数据,能够反映不同经济体对机器人技术应用的重视程度。2023年度统计显示,中国以276,300台的工业机器人安装量位居全球首位,分别达到日本(46,100台)的 6 倍和美国(37,600 台)的 7.3 倍。
韩国与德国分类其后,安装量分别为31,400台和28,400台。
![]()
获取完整PDF文档,请在下方留言~
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.