网易首页 > 网易号 > 正文 申请入驻

斯坦福2025年HAI报告出炉 国产大模型仅讯飞星火入围Mix-Eval前十

0
分享至

2025年4月8日,斯坦福大学与加拿大国立大学、卡内基梅隆大学联合发布的《2025年人工智能指数报告》(HAI报告)正式出炉,在众多顶尖大模型的技术性能评测中,来自中国的讯飞星火4.0(Spark 4.0)凭借其在“MixEval-Hard”测试中的出色表现,成为国内唯一入围前十的中文大模型,在所有国产大模型中排名第一,展示出强劲的技术实力与国际竞争力。

MixEval是本次HAI报告引入的一项全新评测标准,专为评估大语言模型在复杂真实语言任务中的表现,尤其聚焦于“分布式用户查询”和“复杂问题处理能力”。在更具挑战性的MixEval-Hard基准测试中,讯飞星火4.0超越了包括LLaMA 2、Gemini 1.5 Pro等多个国际知名模型以及通义千问等国内模型,成为唯一入榜前十的中国大模型选手。

从报告来看,在MixEval-Hard得分最高的是OpenAI的最新模型“OpenAI o1-preview”,以72.0分遥遥领先,其次是Anthropic的Claude 3.5 Sonnet(68.1分)以及Meta推出的LLaMA-3 405B-Instruct(66.2分)。讯飞星火4.0紧随亚马逊旗下模型Mistral Large2,以0.4的劣势排在第十名,在多个维度上展现出不俗的语言理解和推理能力。

MixEval-Hard测试体系包括“过滤筛选”“语料注释”“评估”和“动态更新”等多个环节,模拟真实场景下用户与模型的交互过程,是目前衡量模型处理复杂任务能力最具代表性的基准之一。其涵盖多模态能力、事实一致性、推理能力等综合指标,被业界称为“大模型能力大考”。

作为科大讯飞旗下的重要战略产品,讯飞星火大模型自2023年发布以来不断迭代升级。其4.0版本于2024年6月发布的,在语义理解、逻辑推理、跨语种翻译等多个领域都实现突破。2025年3月3日,讯飞星火发布深度推理模型X1在数学能力上大幅跃升,以70B参数规模便追平了o1和DeepSeek-R1。尤其针对小初高中文测试集(来自2023/2024各学段考试真题/模拟题/竞赛题),星火X1拿下SOTA。令人振奋的是,这一切全是在全国产算力平台上实现的。

值得注意的是,本次HAI报告也指出,虽然中美在AI能力发展上仍存在差距,但中国本土模型正在以“快马加鞭”的速度追赶国际巨头,中美顶级AI模型的性能差距已经缩小到了0.3%(2023年,这一数字还是20%),国产大模型正在迈向全球舞台的中心。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
官方通报“鹅腿阿姨售卖鸭腿”

官方通报“鹅腿阿姨售卖鸭腿”

观察者网
2026-06-11 15:03:12
遗憾!日本核心因伤退出世界杯!并直接宣布从国家队退役

遗憾!日本核心因伤退出世界杯!并直接宣布从国家队退役

格斗社
2026-06-12 06:13:57
解释鸭腿变绿是泡葱汁,但现场没有葱

解释鸭腿变绿是泡葱汁,但现场没有葱

枫红染山径
2026-06-12 21:44:04
军费只涨0.08%?英国国防大臣、国务大臣同日辞职,斯塔默被推到悬崖边

军费只涨0.08%?英国国防大臣、国务大臣同日辞职,斯塔默被推到悬崖边

上观新闻
2026-06-12 19:30:36
全球最深鲸类大墓地被发现:超1000万头鲸长眠 最早可追溯到530万年前

全球最深鲸类大墓地被发现:超1000万头鲸长眠 最早可追溯到530万年前

快科技
2026-06-12 07:57:04
内塔尼亚胡:以色列已准备好抛弃美国独自攻击伊朗

内塔尼亚胡:以色列已准备好抛弃美国独自攻击伊朗

一种观点
2026-06-10 15:53:34
悲哀!48岁妈妈因管教12岁女儿发生争执,母女俩同日先后跳楼身亡

悲哀!48岁妈妈因管教12岁女儿发生争执,母女俩同日先后跳楼身亡

青梅侃史啊
2026-06-12 22:00:42
多座大桥被炸断,“新俄罗斯”公路被关闭:俄军50辆卡车遭一锅端

多座大桥被炸断,“新俄罗斯”公路被关闭:俄军50辆卡车遭一锅端

鹰眼Defence
2026-06-12 16:20:12
25岁女子怀孕后确诊红斑狼疮,坚持保胎多器官衰竭进ICU!早产生下750克女婴,丈夫痛哭:真的很后悔,一定要把病给她看好

25岁女子怀孕后确诊红斑狼疮,坚持保胎多器官衰竭进ICU!早产生下750克女婴,丈夫痛哭:真的很后悔,一定要把病给她看好

都市快报橙柿互动
2026-06-12 23:25:27
高考刚结束,央视、人民日报接连“点名”张桂梅,句句戳人心窝!

高考刚结束,央视、人民日报接连“点名”张桂梅,句句戳人心窝!

梦醉为红颜一笑
2026-06-11 16:03:06
《浪姐》五公组队,她爱显摆、突然骂人,这几个做作的行为惹人烦

《浪姐》五公组队,她爱显摆、突然骂人,这几个做作的行为惹人烦

洲洲影视娱评
2026-06-12 20:18:46
红线作废?伊朗史诗级软硬不吃,美国突然改口,德黑兰扔出王炸

红线作废?伊朗史诗级软硬不吃,美国突然改口,德黑兰扔出王炸

探索源自好奇
2026-06-11 21:25:00
穆帅将告知5将可离队,卡马文加在列

穆帅将告知5将可离队,卡马文加在列

竞技风云录
2026-06-12 00:27:55
2-1,3-0!足坛悲喜夜!C罗首发,葡萄牙拒绝逆转,英格兰迎连胜

2-1,3-0!足坛悲喜夜!C罗首发,葡萄牙拒绝逆转,英格兰迎连胜

刘哥谈体育
2026-06-12 14:15:42
印度高温失控,偷渡入华危机显现,海关防疫破关键,中国拉响警报

印度高温失控,偷渡入华危机显现,海关防疫破关键,中国拉响警报

青梅侃史啊
2026-06-12 16:36:51
“张雪机车”获得WSBK艾米利亚-罗马涅站杆位赛第三名

“张雪机车”获得WSBK艾米利亚-罗马涅站杆位赛第三名

新京报
2026-06-12 23:06:02
美国议员梅斯败选!初选仅列第五,称因爱泼文件失去支持

美国议员梅斯败选!初选仅列第五,称因爱泼文件失去支持

无心小姐姐
2026-06-11 21:52:52
3换3!尼克斯,赢麻了!年度总冠军级大交易

3换3!尼克斯,赢麻了!年度总冠军级大交易

篮球实战宝典
2026-06-12 22:55:10
不止体罚!戒网瘾机构黑幕:拘禁虐待性侵,有学员被强行送进精神病院

不止体罚!戒网瘾机构黑幕:拘禁虐待性侵,有学员被强行送进精神病院

网易新闻出品
2026-06-10 18:41:12
伊朗多地传出爆炸声!伊朗:正评估将马斯克旗下企业列入打击范围,包括“星链”、SpaceX相关设施!特朗普遭以色列和伊朗同时“打脸”

伊朗多地传出爆炸声!伊朗:正评估将马斯克旗下企业列入打击范围,包括“星链”、SpaceX相关设施!特朗普遭以色列和伊朗同时“打脸”

每日经济新闻
2026-06-12 09:20:07
2026-06-13 01:59:00
驱动中国 incentive-icons
驱动中国
国内知名的IT专业站点
94474文章数 138652关注度
往期回顾 全部

科技要闻

刚刚,人类历史上首位万亿美元富豪诞生!

头条要闻

美加墨世界杯第二场比赛就现空座 英媒:尴尬

头条要闻

美加墨世界杯第二场比赛就现空座 英媒:尴尬

体育要闻

欧洲恐韩?肉德维德?

娱乐要闻

一天4个瓜,肖战热巴最意外

财经要闻

万亿美元顺差背后,透露这些信号

汽车要闻

标配激光雷达/双动力可选 昊铂S600限时售17.99万起

态度原创

艺术
时尚
家居
数码
军事航空

艺术要闻

砸了640亿,再赔160亿!沙特“The Line”项目彻底凉了?

夏天别总穿一身白或一身黑!试试一半彩色、一半基础色,高级亮眼

家居要闻

空间微调 移形换境

数码要闻

英国监管机构警告:亚马逊、eBay仍在售可能致命的假冒手机充电器

军事要闻

伊朗媒体:已故最高领袖葬礼推迟举行

无障碍浏览 进入关怀版