网易首页 > 网易科技 > 网易科技 > 正文

LiveBench 发布榜单:阶跃星辰Step-2位列中国大模型第一

0
分享至
当使用 Step-2 创作古诗词,模型在发挥创意的同时能够对字数、格律、押韵、意境做到精准把握。

11月19日消息, LiveBench 官网公布了最新的语言大模型测评结果,阶跃星辰自研的万亿参数语言大模型 Step-2的技术表现位列中国基座大模型第一,成绩逼近 OpenAI 的 o1-mini-2024-09-12,超越 gpt-4o-2024-08-06 、gemini-1.5-pro-002等国际主流模型,是唯一进入榜单前十名的中国语言大模型,位列全球第五。另外,同时上榜的中国大模型公司还有通义千问和DeepSeek。


据悉,LiveBench 是由图灵奖得主、Meta 首席 AI 科学家杨立昆(Yann LeCun)联合 Abacus.AI、纽约大学等机构联合推出的大模型测评基准。LiveBench 从包括数学、推理、编程、语言理解、指令遵循和数据分析在内的多个复杂维度对模型进行评估,采用新颖的数据来源并保持每月更新,被誉为「世界上第一个不可玩弄的 LLM 基准测试」。

值得关注的是,Step-2在 IF Average(Instruction Following)一项表现突出,超越包括 o1-preview-2024-09-12在内的所有国内外语言大模型。这意味着,Step-2在语言生成上对细节有最强的控制力,模型能够更好地理解和遵循人类指令,捕捉到模糊需求背后用户的真实意图,对通用及特定领域知识的覆盖上都有更好的表现。比如当使用 Step-2创作古诗词,模型在发挥创意的同时能够对字数、格律、押韵、意境做到精准把握。

据了解,今年3月,阶跃星辰发布了 Step-2语言大模型预览版,这是国内首个由创业公司发布的万亿参数模型。

目前,阶跃星辰开放平台为开发者提供 Step-2的 API 接口,该公司的 C 端智能助手「跃问」也已经接入了 Step-2万亿参数语言大模型,用户在跃问 App 和跃问官网可体验。(定西)

延伸阅读
相关推荐
热点推荐
欠债166亿,顶流顾不得体面了

欠债166亿,顶流顾不得体面了

陈天宇
2025-12-02 00:10:05
范曾越扒越有,与女儿断亲只是冰山一角,娇妻徐萌恐成最大输家

范曾越扒越有,与女儿断亲只是冰山一角,娇妻徐萌恐成最大输家

白面书誏
2025-12-13 18:48:54
铁证如山,贼赃俱获!乌克兰在敖德萨扣押俄罗斯“影子舰队”船只

铁证如山,贼赃俱获!乌克兰在敖德萨扣押俄罗斯“影子舰队”船只

军迷战情室
2025-12-10 22:54:04
总决赛上连续爆发,陈熠的表现引来郭焱高度评价

总决赛上连续爆发,陈熠的表现引来郭焱高度评价

鲸鲱鱼体坛
2025-12-13 17:49:10
钱再多有什么用?段永平揭74岁王石真实现状,给所有企业家提了醒

钱再多有什么用?段永平揭74岁王石真实现状,给所有企业家提了醒

禾寒叙
2025-12-12 23:26:05
“225个快递仅退款案”卖家再发声:查到半年前还有331个该顾客的快递退单

“225个快递仅退款案”卖家再发声:查到半年前还有331个该顾客的快递退单

红星新闻
2025-12-13 17:39:38
终于来啦!苹果正式发布 iOS 26.2 系统大更新

终于来啦!苹果正式发布 iOS 26.2 系统大更新

XCiOS俱乐部
2025-12-13 03:33:18
拿捏新加坡的手段来了,这次真的要给新加坡上强度了。

拿捏新加坡的手段来了,这次真的要给新加坡上强度了。

百态人间
2025-12-12 16:02:11
爆砍36分!1人击垮山东,CBA第1战:陈林坚真强,鲍威尔坑苦邱彪

爆砍36分!1人击垮山东,CBA第1战:陈林坚真强,鲍威尔坑苦邱彪

话体坛
2025-12-13 22:06:28
哇,这脸蛋极致又高级,这要是在古代,妥妥的贵妃

哇,这脸蛋极致又高级,这要是在古代,妥妥的贵妃

草莓解说体育
2025-11-16 00:45:56
中方向以色列提出严正交涉

中方向以色列提出严正交涉

政知新媒体
2025-12-13 09:15:48
何超琼没想到,72岁陈婉珍再迎喜讯,让梁安琪和香港阔太圈沉默了

何超琼没想到,72岁陈婉珍再迎喜讯,让梁安琪和香港阔太圈沉默了

娱说瑜悦
2025-12-13 18:42:36
日本右翼疯狂挑事,高市悬了!中方更改对日称呼,发表重磅海报

日本右翼疯狂挑事,高市悬了!中方更改对日称呼,发表重磅海报

动漫里的童话
2025-12-13 21:46:24
笑麻了!女人冬天最尴尬的时刻 热的满头冒汗也不敢脱衣服 评论笑死

笑麻了!女人冬天最尴尬的时刻 热的满头冒汗也不敢脱衣服 评论笑死

有趣的火烈鸟
2025-12-13 11:53:35
2026考研迎来“坏消息”:多所高校发布通知,令寒门学子左右为难

2026考研迎来“坏消息”:多所高校发布通知,令寒门学子左右为难

妍妍教育日记
2025-12-13 14:46:19
曝成都蓉城与徐正源的续约再次陷入僵局!

曝成都蓉城与徐正源的续约再次陷入僵局!

中超伪球迷
2025-12-13 22:10:33
舒淇在节目里第一次承认,她和冯德伦为了要孩子已经折腾了九年。

舒淇在节目里第一次承认,她和冯德伦为了要孩子已经折腾了九年。

岁月有情1314
2025-11-29 15:40:25
李春江观看CBA揭幕战!看到胡金秋戴上冠军戒指,眼里泛起了泪花

李春江观看CBA揭幕战!看到胡金秋戴上冠军戒指,眼里泛起了泪花

体育哲人
2025-12-13 14:51:01
抗美援朝尾声,朝鲜后方女性众多,志愿军铁律:作风问题一律枪毙

抗美援朝尾声,朝鲜后方女性众多,志愿军铁律:作风问题一律枪毙

史之铭
2025-12-12 22:25:39
陈百强自杀真相曝光!王晶揭穿32年豪门谎言:他根本不是为情所困

陈百强自杀真相曝光!王晶揭穿32年豪门谎言:他根本不是为情所困

八斗小先生
2025-12-08 11:07:02
2025-12-13 23:03:00

科技要闻

比亚迪、小鹏、北汽,集体表态

头条要闻

百万支体温计2周抢空 有老板备20万现金一箱货都没买到

头条要闻

百万支体温计2周抢空 有老板备20万现金一箱货都没买到

体育要闻

有了风骚白人秃头,忘掉谈了10年的前任

娱乐要闻

插刀门后,印小天一举动实现口碑逆转

财经要闻

镁信健康闯关港交所:被指窃取商业秘密

汽车要闻

表面风平浪静 内里翻天覆地!试驾银河星舰7 EM-i

态度原创

健康
游戏
亲子
公开课
军事航空

甲状腺结节到这个程度,该穿刺了!

《古墓丽影:催化剂》将呈现更成熟的劳拉形象

亲子要闻

怀孕了,受害人竟是亲兄妹,网友:相煎何太急呀!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

俄乌“和平计划”磋商顿巴斯成焦点

无障碍浏览 进入关怀版
×