网易首页 > 网易号 > 正文 申请入驻

烧了 300 张 H100,新版开源 LLM 排行榜发布:中国模型 Qwen-72B 仍是第一!

0
分享至

整理 | 郑丽媛

出品 | CSDN(ID:CSDNnews)

在这场旷日持久的百模大战中,不仅各家大模型在极致内卷,大模型排行榜的评测标准也在不断迭代。

目前,Hugging Face 的开源大模型排行榜(Open LLM Leaderboard)是大模型领域最具权威性的榜单,它收录了全球上百个开源大模型——本周三,Hugging Face 宣布推出新版开源大模型排行榜(Open LLM Leaderboard):“成绩已趋于平稳,那就让排行榜再次陡峭起来吧!”

在这个更具挑战性的排行榜中,昨日 Hugging Face 的联合创始人兼首席执行官 Clem 在 X 上宣布:阿里最新开源的 Qwen2-72B 指令微调版(Qwen2-72B-Instruct),力压科技巨头 Meta 的 Llama-3 和法国著名大模型平台 Mistralai 的 Mixtral,成为新版开源模型排行榜第一名

很高兴宣布全新的开源大模型排行榜。我们烧掉了 300 个 H100,重新对所有主流开源 LLM 进行了新的评估,如 MMLU-pro! 我们发现: - Qwen 72B 仍是王者,中国的开源模型在整体上占主导地位; - 以前的评估对最近的模型来说太容易了,就像用初中问题给高中生打分一样; - 有迹象表明,AI 构建者开始过于关注主要评估,而忽略了模型在其他评估上的表现; - 更大并不一定更聪明。

“彻底改变评估方式”,推出开源大模型排行榜 v2!

开源大模型排行榜诞生之前,Hugging Face 的 RLHF 团队经历了很艰难的一段时间:想要重现和比较几个已发布模型的结果,但发现这几乎是一项不可能完成的任务——很多论文和营销文中对模型的评分,都是在没有任何可重现代码的情况下给出的,难以复现。

因此,RLHF 团队决定以完全相同的设置(相同的问题、相同的提问顺序等)对参考模型进行评估,以收集完全可重复和可比较的结果——这就是 Hugging Face 开源大模型排行榜的诞生过程。

据 Hugging Face 统计,在过去 10 个月中超过 200 万人访问过这个榜单,每月有近 30 万人以不同方式在使用它,主要是为了:

(1)寻找最先进的开源模型。因为排行榜提供了可复现的分数,可以把市场宣传与实际表现区分开来。

(2)评估自己的工作。无论是预训练还是微调,用公开的方法与现有的最佳模型进行比较,以此赢得公众的认可。

但近一年时间下来,Hugging Face 发现随着模型性能不断提高,原来那套评测基准有点不够用了。首先这套基准已被过度使用,对许多模型来说没有太大难度,其次有部分模型就是用这套基准数据或与其非常相似的数据上训练出来的,评测结果可能不公平,最后有一些评测基准还存在错误需要纠正

基于以上原因,Hugging Face 决定“彻底改变评估方式”,推出开源大模型排行榜 v2!

Qwen2-72B 第一名的位置仍然不变

根据 Hugging Face 博文介绍,新版开源大模型排行榜具有无污染、高质量数据集的新基准,使用可靠的度量标准并测量有趣的模型功能。为此,Hugging Face 决定用以下 6 个基准来涵盖测评任务:MMLU-Pro、GPQA、MUSR、MATH、IFEval 和 BBH。

从新版开源大模型排行榜来看,尽管每个大模型的综合评分都因新评测基准有不同程度的降低,但 Qwen2-72B 第一名的位置仍然不变

可以看到,Qwen2-72B-Instruct 这六项基准的平均分最高,其中 MATH 和 BBH 这两项评分第一:

  • MATH 是一份从多个来源收集的中高级竞赛题汇总,且 Hugging Face 只保留了最难的问题,用 Latex 来处理方程,用 Asymptote 来处理数字,要求输出必须符合非常特定的统一格式。在数学方面,得益于大规模且高质量的数据,Qwen2-72B-Instruct 的数学解题能力大幅提高,尽管测评难度提升也达到了 35.12 分,相较于 Qwen1.5-110B 提高了 12 分, 比知名开源模型 Llama3-70B 也高出了将近 12 分

  • BBH 是 BigBench 数据集中 23 个挑战性任务的一个子集,这些任务包括:1)使用客观指标;2)难度大,因为语言模型的性能最初没有超过人类基准;3)包含足够多的样本以具有统计意义。它们包含多步骤算术和算法推理(理解布尔表达式、几何图形的 SVG 等)、语言理解(讽刺检测、名称消歧等)和一些世界知识。整体而言,BBH 上的表现与人类偏好密切相关——Qwen2-72B-Instruct 在方面达到了 57.48 的高分

另外,在 GPQA 和 MMLU-Pro 这两项上,Qwen2-72B 也夺得第一,平均分位于总榜第三

  • MMLU-Pro 是 MMLU 数据集的改进版,质量更高、难度更大。过去 MMLU 一直是多选知识的参考数据集,但最近研究表明该数据集既存在噪声(有些问题无法回答),又过于简单(由于模型能力的发展和污染的增加)。为此,Hugging Face 推出的 MMLU-Pro 为模型提供了 10 个选项(而不是原来的 4 个),要求对更多问题进行推理,并经过专家审核以减少噪声。Qwen2-72B 成为榜单中唯一一个 MMLU-Pro 评分超过 50 分的模型

  • GPQA 是一个难度极高的知识数据集,其中问题由该领域的专家(生物学、物理学、化学等方面的博士级专家)设计,且经过多轮验证以确保难度和事实性,对于普通人来说很难回答。从模型普遍较低的整体得分来看,新版 GPQA 评测存在较高难度,Qwen2-72B 的 19.24 分目前已是最高分

值得一提的是,除了 Qwen2-72B,榜单前列还有我们许多熟悉的中国模型:零一万物的 Yi-1.5-34B-Chat 处在第 7 名,Qwen1.5-110B 和 Qwen1.5-110B-Chat 也分别位于榜单第 10 名和第 11 名——正如 Hugging Face 联合创始人兼首席执行官 Clem 所说:“中国的开源模型在整体上占主导地位。

https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard

https://huggingface.co/spaces/open-llm-leaderboard/blog

由 CSDN 和 Boolan 联合主办的「2024 全球软件研发技术大会(SDCon)」将于 7 月 4 -5 日在北京威斯汀酒店举行。

由世界著名软件架构大师、云原生和微服务领域技术先驱 Chris Richardson 和 MIT 计算机与 AI 实验室(CSAIL)副主任,ACM Fellow Daniel Jackson 领衔,华为、BAT、微软、字节跳动、京东等技术专家将齐聚一堂,共同探讨软件开发的最前沿趋势与技术实践。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
国民党有两个党主席:一个地上,一个地下

国民党有两个党主席:一个地上,一个地下

雪中风车
2026-02-26 08:36:13
本菲卡虽败犹荣!欧冠焦点战:一场1-2,本菲卡不敌皇马+无缘16强

本菲卡虽败犹荣!欧冠焦点战:一场1-2,本菲卡不敌皇马+无缘16强

足球评论qs
2026-02-26 06:03:53
北京93岁老人终身未娶、无儿无女,去世前将千万财产赠与照顾其12年的邻居,法院判了

北京93岁老人终身未娶、无儿无女,去世前将千万财产赠与照顾其12年的邻居,法院判了

大风新闻
2026-02-24 23:13:12
蔡天凤母亲五姐,还是穿金戴银提奢侈品包包,一看就是富婆!

蔡天凤母亲五姐,还是穿金戴银提奢侈品包包,一看就是富婆!

乐悠悠娱乐
2026-02-24 10:24:09
头号怨种出现了!仅仅晚5秒过出口,一浙C牌车缴纳1384.9元高速费

头号怨种出现了!仅仅晚5秒过出口,一浙C牌车缴纳1384.9元高速费

火山詩话
2026-02-25 10:53:39
魅族停摆真相:从2000万销量到不足1%份额,终成吉利“弃子”

魅族停摆真相:从2000万销量到不足1%份额,终成吉利“弃子”

环环财经视野
2026-02-26 12:00:49
原甘肃省扶贫开发办公室副主任李世英被开除党籍

原甘肃省扶贫开发办公室副主任李世英被开除党籍

界面新闻
2026-02-26 16:02:07
2026春节走访思考:高速服务区取消加油站,真的好吗?

2026春节走访思考:高速服务区取消加油站,真的好吗?

丁道师
2026-02-25 19:04:45
沉默整整9天,毛宁一锤定音,中美战机已交手,美方要见中国代表

沉默整整9天,毛宁一锤定音,中美战机已交手,美方要见中国代表

聚焦真实瞬间
2026-02-26 10:09:37
中国股市:开盘30分钟判断全天涨跌,后悔知道太晚了(建议收藏)

中国股市:开盘30分钟判断全天涨跌,后悔知道太晚了(建议收藏)

一方聊市
2026-02-24 15:15:05
她拒唱国歌,否认中国籍,俩儿子也落户国外,如今她过得怎么样了

她拒唱国歌,否认中国籍,俩儿子也落户国外,如今她过得怎么样了

阅微札记
2026-02-25 16:56:12
我见过最傻的父母,攥着大把的存款和退休金,却等着给子女当遗产

我见过最傻的父母,攥着大把的存款和退休金,却等着给子女当遗产

i书与房
2026-02-25 17:22:34
开国大将之子,携香港女星叛逃31年,76岁在异乡离世

开国大将之子,携香港女星叛逃31年,76岁在异乡离世

高山非凡创作
2024-05-16 23:31:04
亚洲飞人刘翔现状:43岁环游世界,不工作不缺钱花,二婚坚持丁克

亚洲飞人刘翔现状:43岁环游世界,不工作不缺钱花,二婚坚持丁克

不写散文诗
2026-02-19 23:59:12
今年春节后安徽一个视频火了,就20秒,女婿搂着丈母娘腰不让走

今年春节后安徽一个视频火了,就20秒,女婿搂着丈母娘腰不让走

荷兰豆爱健康
2026-02-25 04:41:43
没来过大陆就敢骂几十年?本想找黑料,结果成了大型“真香”现场

没来过大陆就敢骂几十年?本想找黑料,结果成了大型“真香”现场

纵拥千千晚星
2026-02-26 06:25:56
踩踏式抛货超10万箱!习酒沉默,经销商慌了?

踩踏式抛货超10万箱!习酒沉默,经销商慌了?

九州商业观察
2026-02-26 11:01:27
演员王劲松称自己被AI盗用形象生成视频:太可怕了,声音、口型完全看不出来真假,已投诉

演员王劲松称自己被AI盗用形象生成视频:太可怕了,声音、口型完全看不出来真假,已投诉

大象新闻
2026-02-26 17:45:10
南京城管局原副局长司徒幸福被查,幸福生活按下暂停键

南京城管局原副局长司徒幸福被查,幸福生活按下暂停键

江南江南
2026-02-26 14:59:39
画风突变!广东今年首场强对流天气来了

画风突变!广东今年首场强对流天气来了

广东发布
2026-02-26 17:29:50
2026-02-26 20:19:00
CSDN incentive-icons
CSDN
成就一亿技术人
26338文章数 242234关注度
往期回顾 全部

科技要闻

单季营收681亿净利429亿!英伟达再次炸裂

头条要闻

15岁女孩离家失联已不幸遇难:平时成绩优秀 性格开朗

头条要闻

15岁女孩离家失联已不幸遇难:平时成绩优秀 性格开朗

体育要闻

从排球少女到冰壶女神,她在米兰冬奥练出6块腹肌

娱乐要闻

尼格买提撒贝宁滑雪被偶遇 17年老友情

财经要闻

人民币离岸价升破6.83 什么原因?

汽车要闻

40岁的吉利,不惑于内外

态度原创

家居
本地
健康
公开课
军事航空

家居要闻

归隐于都市 慢享自由

本地新闻

津南好·四时总相宜

转头就晕的耳石症,能开车上班吗?

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美政府给新伊核协议设限内容遭披露

无障碍浏览 进入关怀版