网易首页 > 网易号 > 正文 申请入驻

斯坦福AI指数报告:中美大模型差距极速缩小,国产大模型入围MixEval前十

0
分享至

在中美关税大战愈演愈烈之际,一份AI领域的重磅报告——《2025年人工智能指数报告》(HAI报告)出炉。该报告由斯坦福大学李飞飞团队以人为本人工智能研究院发布,已经连续发布8年,在全球AI领域具有很强的影响力。

相比一些商业机构发布的AI报告,HAI报告的编写团队主要由来自斯坦福大学、摩根大通等学术界和产业界的跨学科专家组成,报告内容和数据更客观公正,更有研究价值。因此,HAI报告的研究结论和测试结果,其含金量远高于其他商业报告。

2025年的HAI报告透露出多项AI领域最进展,最值得关注的是,中美顶级模型性能差距缩至0.3%;推理成本暴降,小模型性能飙升,AI正变得更高效、更普惠,这也意味着美国对算力封锁的效果正在打折。

本次HAI报告引入了一项全新评测标准MixEval,是专为评估大语言模型在复杂真实语言任务中表现的测试集,尤其聚焦于“分布式用户查询”和“复杂问题处理能力”,在更具挑战性的MixEval-Hard基准测试中,中美大模型均有上榜,前三名分别是Open AI o1、Claude 3.5和LLaMA 3.5,都来自美国。

中国有三款大模型入围,分别是讯飞星火(SPARK4.0)位居第十名,零一万物位居第十一名,阿里巴巴Qwen-Max位居第十三名。

这份测试结果表明,以讯飞星火4.0为代表的国产大模型,在2024年通过不断的迭代和性能突破,已经在国际主流的大模型测试结果中展现出不俗的能力,正在快速追赶中美AI的发展差距。

除了这份大模型性能测试排名外,报告还透露出三点新动向:

首先,中国在AI大模型上是当之无愧的第二名,与美国的差距只有0.3%。这份报告特别对中美大模型进行对比,成为吸睛的部分。从数量上看,2024年美国发布了40个“前沿模型”,而中国为15个,欧洲仅3个。

从论文方面看,2023年,中国贡献了全球23.2%的AI论文和69.7%的AI专利,远远超过美国;而美国在论文总量上仅排全球第三,约为中国的一半。

从几项关键指标来看,中国大模型对美国的追赶也可以用“极速”来形容。在MMLU这项多任务语言理解测试中,中美模型在2023年相差17.5个百分点,而到2024年只差0.3%;HumanEval(代码生成任务)也从31.6%的差距收缩到3.7%。

其次,推理成本暴降,小模型性能飙升,AI开始普惠。春节后,DeepSeek号称是只用600万美元做出来的,这给OpenAI等依靠堆算力取胜的大模型带来巨大压力,甚至导致美国算力相关股票暴跌。

算力成本下降是不争的事实。报告显示,随着小模型性能提升,达到GPT-3.5水平的推理成本在两年间下降280倍,硬件成本以每年30%的速度递减,能效年提升率达40%。

对于被卡脖子的中国大模型来说,是重大利好。

比如,在MixEval-Hard测试中进入前十的讯飞星火4.0就是在纯国产算力基座上训练出来的大模型,而且2025年3月3日,科大讯飞发布的深度推理模型X1在数学能力上大幅跃升,以70B参数规模便追平了OpenAI o1和DeepSeek R1。

第三,AI医疗已经从梦想走进现实。HAI报告指出:2023年,美国FDA共批准了223款AI医疗设备,而2015年时这一数字还只有6件。报告还表示,OpenAI的GPT-4在复杂医学问诊的测试中,表现甚至优于医生与AI协作小组。

其实,在中国“AI+医疗”也在大规模落地,并诞生了首个上市公司——讯飞医疗。基于星火深度推理大模型X1首发的星火医疗大模型X1已经应用到智医助理、讯飞晓医APP中,实现AI辅助诊断和用户健康咨询。

3月26日,讯飞医疗发布上市后的首个年报,成绩亮眼,全年实现营业收入7.34亿元,同比增长32.0%;实现毛利4.04亿元,同比增长28.4%。

从斯坦福这份报告可以看出,当前,美国仍然是AI大模型领域的第一名,但是中国企业的追赶速度正在加快,与美国之间的差距极速缩小。同时,推理成本大幅减少,让美国对中国算力的封锁效果变差,国产算力的价值逐渐提高。

在中美各种较量之中,AI技术的较量关乎未来,国产大模型的发展令人振奋。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
老婆败光20亿真相大白10个月,张学友近况引人担忧,王晶真没说错

老婆败光20亿真相大白10个月,张学友近况引人担忧,王晶真没说错

揽星河的笔记
2025-12-29 17:05:48
渔村逆袭?“电诈恶魔”陈志老婆是四川人,150亿比特币沾满血泪

渔村逆袭?“电诈恶魔”陈志老婆是四川人,150亿比特币沾满血泪

豆腐脑观察局
2025-11-17 06:50:03
方媛晒一家四口逛街照,郭富城好矮,方媛腰胯很宽,成了中年妇女

方媛晒一家四口逛街照,郭富城好矮,方媛腰胯很宽,成了中年妇女

乐悠悠娱乐
2026-01-09 09:42:08
末代皇帝:溥仪回到故宫时买了票,发现了自己藏在椅子底下的宝贝

末代皇帝:溥仪回到故宫时买了票,发现了自己藏在椅子底下的宝贝

铭记历史呀
2026-01-10 12:27:42
官宣离婚3年后,高调认爱的吴倩和张雨剑,联手给娱乐圈上了一课

官宣离婚3年后,高调认爱的吴倩和张雨剑,联手给娱乐圈上了一课

手工制作阿歼
2026-01-10 09:12:30
1970年江青哥哥带儿子来北京,江青得知对方想见自己后:这事难办

1970年江青哥哥带儿子来北京,江青得知对方想见自己后:这事难办

谈古论今历史有道
2026-01-08 11:50:03
147:5,中俄反对无效,联大通过决议,日本要求中国“自废武功”

147:5,中俄反对无效,联大通过决议,日本要求中国“自废武功”

小小科普员
2025-12-04 20:14:22
广东男篮吊打辽篮,听听媒体专家怎么说,辽媒点出四冠王的问题

广东男篮吊打辽篮,听听媒体专家怎么说,辽媒点出四冠王的问题

邹维体育
2026-01-11 21:20:34
雷军回忆黑河冬测:高标准高强度测试是好质量的前提

雷军回忆黑河冬测:高标准高强度测试是好质量的前提

手机中国
2026-01-12 07:46:12
姚明陪父母上海探亲,身材发福似 “邻家大叔”,拎礼品表情无奈

姚明陪父母上海探亲,身材发福似 “邻家大叔”,拎礼品表情无奈

带你逛体坛
2026-01-11 08:02:25
王思聪送99朵玫瑰示爱,懒懒早搬进2亿豪宅,俩人只差一张结婚证

王思聪送99朵玫瑰示爱,懒懒早搬进2亿豪宅,俩人只差一张结婚证

疯说时尚
2026-01-11 11:09:04
分手8年,自曝私密事的Coco,没给谢贤留体面,原来谢霆锋没说谎

分手8年,自曝私密事的Coco,没给谢贤留体面,原来谢霆锋没说谎

娱说瑜悦
2026-01-06 17:28:42
凯恩:路易斯-迪亚斯在场上拼尽全力,经常能看到他回追防守

凯恩:路易斯-迪亚斯在场上拼尽全力,经常能看到他回追防守

懂球帝
2026-01-12 06:05:16
演员朱珠疑似塌房?照片流出,惊呆网友!

演员朱珠疑似塌房?照片流出,惊呆网友!

大眼妹妹
2025-12-15 10:39:19
前国安主帅被评年度最佳!曾被批太保守,球队年年换帅何时夺冠?

前国安主帅被评年度最佳!曾被批太保守,球队年年换帅何时夺冠?

体坛鉴春秋
2026-01-11 22:37:15
古巴国家主席:把一切都当作生意的人,没资格对古巴指手画脚

古巴国家主席:把一切都当作生意的人,没资格对古巴指手画脚

新华社
2026-01-12 01:33:04
罗晋携任素汐去祈福后,唐嫣连发三文表态,婚变传闻终于真相大白

罗晋携任素汐去祈福后,唐嫣连发三文表态,婚变传闻终于真相大白

瓜汁橘长Dr
2025-12-29 11:29:56
钱再多有什么用,64岁郎平如今的现状,给所有运动员们提了个醒

钱再多有什么用,64岁郎平如今的现状,给所有运动员们提了个醒

涵豆说娱
2025-12-10 16:49:41
谢贤前女友大曝恋爱私隐!三年不碰她,却每天给她做“四哥菜芯”

谢贤前女友大曝恋爱私隐!三年不碰她,却每天给她做“四哥菜芯”

阿纂看事
2026-01-09 10:19:00
一位独居老人倾诉:好心让失业的亲戚来做保姆,结果却害苦了自己

一位独居老人倾诉:好心让失业的亲戚来做保姆,结果却害苦了自己

人间百态大全
2026-01-04 06:40:03
2026-01-12 08:20:49
磐石之心 incentive-icons
磐石之心
探究产业融合的秘密
2329文章数 49802关注度
往期回顾 全部

科技要闻

“我们与美国的差距也许还在拉大”

头条要闻

李献林学习教育期间违规吃喝:5人喝4瓶酒 1人酒后死亡

头条要闻

李献林学习教育期间违规吃喝:5人喝4瓶酒 1人酒后死亡

体育要闻

U23国足形势:末轮不负泰国即确保晋级

娱乐要闻

留几手为闫学晶叫屈?称网友自卑敏感

财经要闻

外卖平台"烧钱抢存量市场"迎来终局?

汽车要闻

2026款宋Pro DM-i长续航补贴后9.98万起

态度原创

本地
家居
旅游
公开课
军事航空

本地新闻

云游内蒙|“包”你再来?一座在硬核里酿出诗意的城

家居要闻

木色留白 演绎现代自由

旅游要闻

生态优先,雪域高原焕发新生机(子夜走笔)

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

俄大使:马杜罗夫妇被控制时身边没人

无障碍浏览 进入关怀版