网易首页 > 网易号 > 正文 申请入驻

「全球最严榜单」,阶跃拿下中国TOP 1!杀入世界前五,超过GPT-4o紧跟o1-mini

0
分享至

新智元报道

编辑:编辑部 HYZ

【新智元导读】在「全球最难LLM评测榜单」上,国产万亿参数模型杀入全球第五,拿下中国第一!国内明星初创阶跃星辰的这个自研模型太过亮眼,甚至引起了外国网友的热议。

不低调了!

刚刚,国际权威榜单LiveBench最新榜单出炉,一个国产黑马闪耀其中。

没错,它就是阶跃星辰自研的万亿参数大模型Step-2。

Step-2以碾压之势,强势杀入LiveBench全球前五,一举夺得国内TOP 1。

更让人热血沸腾的是,这款Step-2语言大模型,成为唯一一个冲进榜单前十的中国语言大模型。

根据榜单评测,Step-2成绩逼近OpenAI o1-mini(2024-09-12),超越GPT-4o(2024-08-06)、Gemini 1.5 Pro 002等国际主流模型。

Step-2的真实表现,彻底震惊了歪果仁。在Reddit和X上,可谓是热议连连。

太令人印象深刻了!或许OpenAI、Anthropic、DeepMind发布万亿参数模型时,我们也能看到这一结果。

中国的LLM正在变得强大,一个全新模型登上LiveBench榜单第五名,而且在多个基准测试中超越了GPT-4o,甚至在其中一个基准上击败了o1-preview

如今,Step-2以王者姿态,实至名归。

赶超o1-preview,全凭惊人理解力

根据榜单,在IF Average(指令跟随)一项中,Step-2的表现超越了所有上榜的国内外模型。

甚至,连OpenAI o1-preview(2024-09-12)也被碾压式击败,领先近10分。

这意味着,Step-2在语言生成上对细节有最强的控制力,模型能够更好地理解和遵循人类指令。

比如,即便给出模糊的指令,凭借出色的理解能力,Step-2基于上下文推断用户的需求,精准捕捉其真实意图,提供更准确、个性化的响应。

Step-2的与众不同在于,在知识覆盖面和深度上,取得了实打实的突破。

不仅能处理常见的领域知识,还能更深层次理解、回答特定领域复杂问题。

在文字创作方面,Step-2更展现出了令人惊叹的控制力。

它就像一位丰富的文字匠人,比如在创作古诗词时,对字数、格律、押韵、意境都可以做到精准把握。

Step-2既能生成高质量、有创意的文字内容,又具备了出色的细节控制力,根据用户指令对文本进行精准调整和优化。

大模型最权威评测,LeCun领衔

值得一提的是,LiveBench是由图灵奖得主Yann LeCun联手Abacus.AI、NYU、英伟达等多家机构推出的LLM评测基准。

其含金量,不言而喻。

而且,它被行业誉为「世界上第一个不可玩弄的LLM基准测试」。

当前,测试集污染,已经成为公平评估大模型面临的一个普遍问题。

就好比LLM在训练时偷看了测试数据,使得原有评测失去了意义。

虽然业界尝试通过人工/LLM打分来收集新提示词和评估结果,但这种方法会引入新的偏差,特别是在评估复杂问题时表现不佳。

LiveBench就是为了破解这一难题而诞生。

这一创新基准从数学、推理、编程、语言理解、指令遵循和数据分析在内的多个复杂维度对模型进行评估。

而且,它还会每月定期更新,基于最新信息源的测试问题。

每个测试问题都配备了可验证的、客观的参考答案,这使得即使是较为复杂的问题也能够准确且自动地完成评分,无需依赖LLM作为评判标准。

项目地址:https://livebench.ai/#

为了确保测试的「新鲜度」,它采用了多种创新方法,保证测试内容未受数据污染。

比如,精心设计基于最新数学竞赛、arXiv论文、新闻文章和数据集的问题,同时收录了来自现有评测基准(如Big-Bench Hard、AMPS和IFEval)的改进版任务。

发布之初,研究团队基于LiveBench对知名闭源模型进行评测,以及对参数规模从5亿到1100亿参数不等的数十个开源模型进行了评估。

测试结果却令人深思:即使是最强大的模型,准确率也未能突破65%的天花板。

足见,LiveBench在大模型评测中的权威性和挑战性。

这也从侧面说明了,能够跻身TOP 5的模型,必定是真材实料、技术过硬的佼佼者。

那么,究竟是怎样的技术实力,让Step-2能够在如此严苛的考验下脱颖而出?

让我们一起来揭开这个谜底...

万亿参数Step-2,是怎样炼成的

今年3月,还是LLM战场新玩家的阶跃星辰,就一口气发布了千亿参数语言大模型Step-1、千亿参数多模态大模型Step-1V,以及来自国内大模型初创的首个万亿参数MoE语言大模型Step-2预览版。

今年7月,Step-2正式亮相后,更是直接跻身国际顶尖模型的行列。

在数理逻辑、编程、中文知识、英文知识、指令跟随等方面,Step-2的能力和使用体验已经全方位逼近GPT-4。

目前,阶跃星辰已将Step-2接入了C端智能助手「跃问」,在跃问App和跃问网页端皆可体验。

体验地址:https://yuewen.cn

从千亿模型扩展到万亿参数,并不是简单的「大力出奇迹」,而是需要跨过技术上的「分水岭」,对各个维度的要求都是水涨船高。

一旦其中任何维度出现短板,Scaling Law都将不再适用,出现「只投入,不产出」的尴尬局面。

为了训出强悍的Step-2,技术团队在算法和系统方面都做出了大量的关键创新。

阶跃星辰创始人、CEO姜大昕博士表示,模型扩大到万亿级别时,MoE几乎是必选项,这是权衡了性能、参数量、训练成本、推理成本等各个维度后的最佳选择。

要训练如此大规模的MoE模型,有两条路可走:一是将已有模型进行向上复用(up-cycle)。

这个方案最大的好处,就在于省钱省力,算力需求低、训练效率高,但会限制模型能力的上限,容易造成比较严重的专家同质化。

为了达到最优性能,阶跃星辰团队选择迎难而上,没有采用第一种方案,而是完全自主研发,从头开始。

Step-2的架构中采用了部分专家共享参数、异构化专家等一系列新颖的设计,充分利用万亿参数。

虽然在MoE架构中,每次训练或推理只会激活部分参数,但背靠万亿总量,激活的参数量也能超越大部分稠密模型。

当参数增长到万亿级别时,训练效率至关重要,这离不开高效且稳定的系统部署。

高效,意味着GPU的使用效率高,让有限的硬件输出最多的算力;稳定,意味着训练过程需要持续进行,不能轻易被故障打断。

即使每张GPU日夜不停连续跑两个月才出现一次故障,放在万卡集群中,相当于平均每10分钟就有一张卡出问题。

如果没有自动的故障检测和恢复机制,每张卡出问题时都要恢复检查点、重启训练,不仅工程师不用睡觉了,模型的训练周期更是成倍拉长。

在Step-2训练过程中,阶跃星辰的系统团队突破了6D并行、极致显存管理、完全自动化运维等关键技术,从高效、稳定两个层面同时发力,才能在3个月的时间内发布新模型。

如今,哪条是通往AGI的坦途,业内大佬们依旧争论不一。

从Step-2霸榜惊艳表现,到多模型齐头并进,阶跃星辰展现出一家顶尖AI公司应有的实力和远见。

这不仅仅是一个技术突破的见证,更是一个关于中国AI力的最好注脚。

参考资料:

https://livebench.ai/#/

https://y uewen.cn

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
你有过发横财的经历吗?网友:最后一个人值得佩服

你有过发横财的经历吗?网友:最后一个人值得佩服

解读热点事件
2025-09-11 00:05:09
买人生第一辆车多久开始后悔?看完网友分享,全是“同道中人”!

买人生第一辆车多久开始后悔?看完网友分享,全是“同道中人”!

墙头草
2025-09-07 08:26:39
蓝营党员更支持谁?结果出人意料,郑丽文机会大,赵少康变低调

蓝营党员更支持谁?结果出人意料,郑丽文机会大,赵少康变低调

辉辉历史记
2025-09-15 15:38:10
为啥毒瘾难戒到让人心死?网友分享句句都实在戳心!

为啥毒瘾难戒到让人心死?网友分享句句都实在戳心!

墙头草
2025-09-09 07:54:46
云南省政府原参事,保山市委原书记赵德光简历

云南省政府原参事,保山市委原书记赵德光简历

天气观察站
2025-09-15 10:01:52
西贝儿童餐疑虚假宣传老罗第二回合入口李国庆劝老贾不是灭顶之灾

西贝儿童餐疑虚假宣传老罗第二回合入口李国庆劝老贾不是灭顶之灾

娱乐看阿敞
2025-09-15 13:49:01
采药昆仑石刻后续|秦代石刻为真,命名为“尕日塘秦刻石”

采药昆仑石刻后续|秦代石刻为真,命名为“尕日塘秦刻石”

红星新闻
2025-09-15 13:00:33
以色列继续袭击哈马斯,中俄立场改变,除了释放人质已无路可走

以色列继续袭击哈马斯,中俄立场改变,除了释放人质已无路可走

麓谷隐士
2025-09-15 00:10:21
15号收评:市场维持轮动态势,所有人都注意了,明天大盘已无悬念

15号收评:市场维持轮动态势,所有人都注意了,明天大盘已无悬念

春江财富
2025-09-15 15:19:55
实至名归!邦加荣获欧锦赛FMVP!

实至名归!邦加荣获欧锦赛FMVP!

直播吧
2025-09-15 04:21:03
穿白裙子的气质美女

穿白裙子的气质美女

小椰的奶奶
2025-09-12 08:20:39
福耀科技大学火出圈:开学发岗位清单,毕业保底25万年薪!

福耀科技大学火出圈:开学发岗位清单,毕业保底25万年薪!

玉辞心
2025-09-14 09:59:35
东体:瓦科与山东续约谈判顺利,但崔康熙经纪人介入或有变数

东体:瓦科与山东续约谈判顺利,但崔康熙经纪人介入或有变数

懂球帝
2025-09-15 15:40:10
廖一帆爸爸硬刚家委会后续:孩子被区别对待,已和学校达成和解

廖一帆爸爸硬刚家委会后续:孩子被区别对待,已和学校达成和解

鋭娱之乐
2025-09-12 13:01:53
中美俄反炮兵雷达对比:俄5秒锁定敌人,美国需10秒,中国是多少

中美俄反炮兵雷达对比:俄5秒锁定敌人,美国需10秒,中国是多少

策略述
2025-09-15 19:05:00
令韩国人震惊的中国酸奶世界…

令韩国人震惊的中国酸奶世界…

奋斗在韩国
2025-09-13 19:06:56
妻子长肌瘤需要切除子宫,丈夫愤怒拒绝:影响性生活,切就离婚!

妻子长肌瘤需要切除子宫,丈夫愤怒拒绝:影响性生活,切就离婚!

丫头舫
2025-09-14 22:29:08
紧急!冷空气携暴雨 16 日杀到,超 6 省遭大暴雨!17 号台风 18 日或生成

紧急!冷空气携暴雨 16 日杀到,超 6 省遭大暴雨!17 号台风 18 日或生成

老枼说
2025-09-15 11:00:36
罗景锋任楚雄州代州长 张文旺辞去州长职务

罗景锋任楚雄州代州长 张文旺辞去州长职务

中国经济网
2025-09-15 09:07:18
什么是“永久军衔”?为什么有的军人退役后还拥有“军衔”

什么是“永久军衔”?为什么有的军人退役后还拥有“军衔”

Ck的蜜糖
2025-09-14 13:31:32
2025-09-15 19:56:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
13451文章数 66153关注度
往期回顾 全部

科技要闻

官方:英伟达违反反垄断法 将施进一步调查

头条要闻

"馆长"泼凉水 媒体:谁当选国民党主席对大陆已不重要

头条要闻

"馆长"泼凉水 媒体:谁当选国民党主席对大陆已不重要

体育要闻

诺维茨基退役十年后,德国篮球走向巅峰

娱乐要闻

60岁张曼玉定居法国:瘦成皮包骨?

财经要闻

华与华秒怂 罗永浩称已接到对方道歉

汽车要闻

后轮转向和5C 2026款梦想家把想到的都给了

态度原创

房产
教育
艺术
时尚
本地

房产要闻

当海口书包房卷向「未来」,这里的孩子和房价,都在高速超车!

教育要闻

这题迟迟没有结果,明天早上就要交作业了,这可怎么办呀

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

别再买“网红同款”了,显胖又低级!

本地新闻

云游中国 | 草原驭秋风 祁连山邂逅黑河源头

无障碍浏览 进入关怀版