网易首页 > 网易号 > 正文 申请入驻

李飞飞团队456页最新报告:中美AI模型性能近乎持平,系统推理成本降至280分之一

0
分享至

每经记者:宋欣悦 每经编辑:兰素英

4月8日,由李飞飞联合领导的斯坦福大学以人为本人工智能研究所(Stanford HAI)发布了《2025年人工智能指数报告》(Artificial Intelligence Index Report 2025)。这份长达456页的报告,深入剖析了2024年全球人工智能行业的发展态势,揭示了12大关键趋势。

图片来源:斯坦福大学以人为本人工智能研究所官网

报告认为,AI正变得更高效、更普惠。随着小模型性能飙升,达到GPT-3.5水平的系统推理成本在过去两年间下降到了原来的280分之一。

报告还指出,中国高性能AI模型的数量和质量不断提升,中美AI模型性能近乎持平。与此同时,中国在AI领域论文数量和专利数量上保持领先地位。


AI性能飙升,表现逐渐接近人类

2023年,研究人员推出了MMMU、GPQA和SWE-bench等颇具挑战性的新基准测试,用于测试AI系统的极限。

测试发现,仅仅一年后,AI系统的性能便实现大幅跃升——在MMMU测试中得分提升18.8个百分点;在GPQA测试中提高48.9个百分点;SWE-bench测试里更是提升了67.3个百分点。

从整体趋势来看,AI在各大领域的表现逐渐接近人类,甚至在某些情形下,AI智能体能在限时编程任务中超越人类

在部分评测指标上,AI技术性能表现与人类水平的对比 图片来源:《2025年人工智能指数报告》

然而,复杂的推理对于AI模型而言,仍然是一个挑战

在处理类似国际数学奥林匹克竞赛题目这类任务时,AI模型表现出色。但面对诸如PlanBench等复杂推理基准测试时,却仍显得吃力。即使面对那些已知存在正解的逻辑任务,AI也经常无法可靠地解决逻辑任务,这极大限制了AI在对精度要求极高的高风险行业中的应用

各大模型在PlanBench基准测试上的正确率 图片来源:《2025年人工智能指数报告》


全球AI投资飙升

2024年,生成式AI在全球范围内吸引了339亿美元的私人投资,与2023年相比,增长幅度达到18.7%。

与此同时,企业对AI的采用率显著提升,从2023年的55%上升至2024年的78%。越来越多的研究结果表明,AI不仅能够有效提升生产力,在多数情况下,还能缩小劳动力的技能差距。

值得关注的是,将生成式AI应用于至少一项业务职能的企业数量出现了激增。2023年,这一比例仅为33%,而到了2024年,该比例跃升至71%,增幅超过一倍。

2017年至2024年,将AI应用于至少一项业务职能企业的比例不断上升 图片来源:《2025年人工智能指数报告》


中美模型性能近乎持平

数据显示,美国在AI模型的数量上处于领先地位。2024年,总部位于美国的机构拥有40个知名AI模型,超过中国(15个)和法国(3个)。

图片来源:《2025年人工智能指数报告》

不过,报告强调,中美模型之间的性能差距正在迅速缩小。以MMLU和HumanEval等主流基准测试结果来看,2023年,中美顶尖模型之间的性能差距还在两位数,然而到了2024年,这一差距已大幅缩小,几乎处于同一水平

与此同时,中国在AI领域论文数量和专利数量上依旧保持领先地位


小模型性能飙升,推理成本降至280分之一

报告指出,AI正变得更加高效、经济实惠和易于获取。

随着小模型性能提升,达到GPT-3.5水平的系统推理成本在过去两年间下降至280分之一。在硬件层面,成本每年下降30%,而能源效率每年提高40%。

2022年,在MMLU基准测试中,得分超60%的最小模型是PaLM,参数量为5400亿。到了2024年,微软Phi-3-mini仅用38亿参数,就取得了同样的实力。这代表,两年多的时间里模型参数减少了142倍。

此外,开源模型正在迎头赶上,与闭源模型的差距逐渐缩小。2023年,开源模型明显落后于闭源模型。而到2024年,这一差距几乎消失。2024年1月初,顶尖闭源模型在大模型竞技场排行榜上以8.0%的成绩超过了顶尖开源模型。而到2025年2月,这一差距已缩小至1.7%。

2022年至2024年,在MMLU上得分高于60%的小模型 图片来源:《2025年人工智能指数报告》


中国对AI的态度最乐观

在对AI的态度方面,中国是全球主要国家和地区中最乐观的

报告显示,2024年中国有83%的人认为AI产品和服务利大于弊,排在后面的是印度尼西亚(80%)和泰国(77%)。相比之下,美国(39%)、加拿大(40%)等的乐观情绪远低于中国。

2022年至2024年,各国认为“使用AI产品和服务利大于弊”的比例 图片来源:《2025年人工智能指数报告》

不过,从整体趋势而言,各国对于AI的乐观情绪正逐渐升温,特别是在一些曾对AI最持怀疑态度的国家。数据显示,自2022年起,美国认为“使用AI产品和服务利大于弊”的比例提升了4%,加拿大增长了8%,法国增长了10%。


三分之二受访者称AI将在未来3至5年对日常生活产生显著影响

从医疗保健到交通运输,AI正迅速从实验室走向日常生活。

2023年,美国食品药品监督管理局(FDA)批准了223款AI医疗设备,而2015年仅有6款。

1995年至2023年FDA批准的AI医疗设备数量 图片来源:《2025年人工智能指数报告》

道路交通同样因AI技术发生着日新月异的变化。自动驾驶汽车不再只是实验,而是逐步驶入现实生活。

美国最大的运营商之一Waymo每周提供超过15万次自动驾驶服务,而百度旗下的“萝卜快跑”(Apollo Go)无人驾驶出租车队已在中国多个城市正式投入运营。

此外,人们对AI融入日常生活的期待与认可度正在上升。据统计,全球范围内,有多达三分之二的受访者认为,在未来三到五年内,AI产品及服务将对日常生活产生显著影响

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
小卡轮休登哥带队,加时擒龙挤进附加赛圈,北伐初见成效

小卡轮休登哥带队,加时擒龙挤进附加赛圈,北伐初见成效

大飞说篮球
2026-01-17 18:43:15
5岁孩子长期玩"玩具",黑眼珠逐渐"消失",医生:很难恢复了

5岁孩子长期玩"玩具",黑眼珠逐渐"消失",医生:很难恢复了

大果小果妈妈
2026-01-15 20:16:55
单伟健1100亿鲸吞万达,王健林30年帝国终成资本代运营平台

单伟健1100亿鲸吞万达,王健林30年帝国终成资本代运营平台

流苏晚晴
2026-01-06 18:25:30
他85年出任深圳市市长,多年后回忆赴任前:邓小平几次要同我谈话

他85年出任深圳市市长,多年后回忆赴任前:邓小平几次要同我谈话

海佑讲史
2026-01-17 13:00:11
中超动态:申花今日热身赛0-0平拉脱维亚奥达队

中超动态:申花今日热身赛0-0平拉脱维亚奥达队

余憁搞笑段子
2026-01-17 18:48:46
记者手记|“受够了美国的霸凌!”——南非民众再度集会声援委内瑞拉

记者手记|“受够了美国的霸凌!”——南非民众再度集会声援委内瑞拉

新华社
2026-01-17 17:18:18
美国终于回过味来了:这个世界上,不会再有第二个 “中国” 了

美国终于回过味来了:这个世界上,不会再有第二个 “中国” 了

扶苏聊历史
2026-01-16 17:44:38
高峰也没想到,他当年抛弃的儿子,如今开始给那英争光了

高峰也没想到,他当年抛弃的儿子,如今开始给那英争光了

趣文说娱
2026-01-04 16:34:24
一个被炸成废墟的国家,靠什么在20年内重返巅峰?

一个被炸成废墟的国家,靠什么在20年内重返巅峰?

苏格拉高
2026-01-16 14:51:28
随着日本5-3,5大西亚劲旅已被送回家,西亚仅剩1独苗

随着日本5-3,5大西亚劲旅已被送回家,西亚仅剩1独苗

侧身凌空斩
2026-01-16 22:22:46
巩俐21岁时写的字,颠覆了我的想象!

巩俐21岁时写的字,颠覆了我的想象!

石场阿鑫
2026-01-16 13:41:02
中国最后一位太监孙耀庭自述:晚上伺候娘娘时,鞋底必须藏苍耳

中国最后一位太监孙耀庭自述:晚上伺候娘娘时,鞋底必须藏苍耳

妙知
2025-08-28 10:19:43
多哈球星挑战赛17日赛程,男双决赛黄友政温瑞博对张禹珍赵大成

多哈球星挑战赛17日赛程,男双决赛黄友政温瑞博对张禹珍赵大成

乒乓球球
2026-01-17 08:52:03
决赛对阵出炉!国乒全国冠军3:0晋级决赛对阵韩国,冲击新年第1冠

决赛对阵出炉!国乒全国冠军3:0晋级决赛对阵韩国,冲击新年第1冠

国乒二三事
2026-01-17 07:29:59
今天才知道,高铁的无座票并不是站票,买无座票不要再傻乎乎站着了

今天才知道,高铁的无座票并不是站票,买无座票不要再傻乎乎站着了

美食格物
2026-01-17 04:54:14
养女是软肋,丈夫是铠甲,贺娇龙身后的家庭,藏着最动人的温柔

养女是软肋,丈夫是铠甲,贺娇龙身后的家庭,藏着最动人的温柔

牛锅巴小钒
2026-01-17 01:28:50
吴佩慈准婆婆崔丽杰的赌命人生:从东北仓管员到百亿流水女富豪

吴佩慈准婆婆崔丽杰的赌命人生:从东北仓管员到百亿流水女富豪

安宁007
2026-01-17 05:19:12
中方已读不回后,日本祭出藏了14年的稀土底牌,要掀翻中国饭碗?

中方已读不回后,日本祭出藏了14年的稀土底牌,要掀翻中国饭碗?

吃货的分享
2026-01-16 15:09:18
乌专家:中国“吸干”苏联遗产,我们图纸都没看懂,他们造出2.0

乌专家:中国“吸干”苏联遗产,我们图纸都没看懂,他们造出2.0

博览历史
2025-12-29 19:26:45
单亲辣妈夫家破产了?李湘被限流了?邓为没戏拍?敖瑞鹏项目黄了?姨太问答

单亲辣妈夫家破产了?李湘被限流了?邓为没戏拍?敖瑞鹏项目黄了?姨太问答

毒舌扒姨太
2026-01-16 22:11:57
2026-01-17 19:27:00
每日经济新闻 incentive-icons
每日经济新闻
中国主流财经全媒体平台。
1460102文章数 2721851关注度
往期回顾 全部

科技要闻

8亿周活扛不住烧钱 ChatGPT终向广告"低头"

头条要闻

美交通部长:进口4.9万辆中国电动汽车 加拿大要后悔

头条要闻

美交通部长:进口4.9万辆中国电动汽车 加拿大要后悔

体育要闻

三巨头走了俩,联盟笑柄却起飞了

娱乐要闻

徐家还是爱孩子的,在马筱梅生产前选择和解

财经要闻

保不准,人民币会闪击6.8!

汽车要闻

林肯贾鸣镝:稳中求进,将精细化运营进行到底

态度原创

家居
本地
时尚
数码
公开课

家居要闻

岁月柔情 现代品质轻奢

本地新闻

云游内蒙|黄沙与碧波撞色,乌海天生会“混搭”

岁月不败美人,50岁她们比20岁更好看

数码要闻

消息称苹果2026 - 2028年为5款产品升级OLED屏幕

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版