网易首页 > 网易号 > 正文 申请入驻

阶跃星辰再拿多模态榜首,全方位升级发布六款模型

0
分享至

由月更加速到日更,阶跃模型迭代驶入「快车道」。

作者丨朱可轩

编辑丨陈彩娴

春节将近,各家厂商似乎都在争取休假前的最后一博,此时步入 2025 年也才半月有余,大模型玩家们已然卷上了新高度。

先是 OpenAI 打响了开年第一“枪”,ChatGPT 上线了新功能“Tasks”,主打提升了任务执行能力,之后国内一众厂商也先后发布了自家成果——

月之暗面发布了全新的多模态图片理解模型 moonshot-v1-vision-preview;MiniMax 开源了基础语言模型 MiniMax-Text-01 和视觉多模态模型 MiniMax-VL-01;生数科技上新了视频大模型 Vidu 2.0;

接着,智谱 AI 推出了端到端多模态大模型 GLM-Realtime;面壁智能带来了端侧多模态模型 MiniCPM-o 2.6;DeepSeek 开源了 DeepSeek-R1 推理模型......

刚开年,模型更新便多到让人眼花缭乱,当中也不难发现,多模态、推理和端侧依旧是今年各家寻求突破的重点方向。

不得不提的是,在这一各厂商密集上新的“黄金节点”,AI 科技评论关注到,阶跃星辰一周内竟一口气批量更新了 6 款模型,全方位涵盖语言、语音、推理、图片理解、视频生成等多类别。

阶跃的更新速度在国内大模型厂商中可以说是非常少见,自 1 月 16 日开始,撇开周末双休,阶跃这波几乎一天一更,主打保质超量完成任务。

最为值得一提的是,多模态领域其实一直都是阶跃的舒适区,其去年就已经发布了 8 款相关模型,且在多个业内权威榜单中拿下国内第一。

在此次模型上新中,阶跃也继续带来了多模态基座模型的新成果——多模态 Step-1o 系列推出多模态理解模型 Step-1o vision、语音模型 Steo-1o Audio 升级,视频生成模型 Step-Video 升级至 V2 版。

值得关注的是,阶跃在多模态推理也已开始崭露头角,其正式发布了Step 系列的首款推理模型 Step Reasoner mini (简称“Step R-mini”),同时,正在推进视觉推理模型的研发,尝试将推理能力融入更多交互形态的大模型中。

除多模态外,阶跃的语言模型能力也不可小觑,文字创作一直是阶跃旗下模型的一大优势所在,此次阶跃也同期发布了小模型 Step R-mini 和 Step-2 文学大师版,继续强化 Step-2 模型的创作能力。

2025 年的模型之战已然打响,而阶跃在开年便已火力全开,在多模态方面更是呈现出“卷王”之姿,迅速与其他厂商拉开了差距。

1

多模态「卷」王之王

多模态是阶跃一直以来在持续发力的重点方向,也是阶跃的优势所在,去年成立以来,阶跃便已在多模态领域推出了 8 款大模型:

包括 Step-1V、Step-1.5V 两款多模态大模型;Step-1X 图像生成大模型;Step-1.5v-turbo 视频理解模型和 Step-Video 视频生成模型;三款语音大模型——Step-tts-mini 语音复刻和生成大模型、Step-asr 语音识别大模型和 Step-1o Audio 语音大模型。

近日,阶跃更新了多模态 Step-1o 系列成果,值得一提的是,Step-1o 也在国内权威的大型模型评估平台“司南”(OpenCompass)多模态模型评测实时榜单中拿下了第一:

说回新成果,首先,阶跃在 Step-1o Audio 的基础上带来了升级,这款国内首个千亿参数端到端语音大模型距离首发刚过去一个多月,阶跃便又迅速迭代了新版本,较之上一版实现了更低延迟,声音也更为自然。

在通话过程中,Step-1o Audio 升级版不仅能感知理解情绪,还能结合语境,深度理解情感需求,提供最佳回应:

在向其吐槽生活中琐碎的事情如“开了一天车感觉很累”,她能在夸奖我们“真能干”的同时给出诸如“喝口水、吃点东西补充能量”的建议,再如围绕“最近接单很多,感觉腰很酸痛”这一问题,她也能一边感叹生意红火,一边建议我们要注意身体,记得去医院看看,人情味满满。

此外,升级版也已支持多语种和多方言的对话,并能在中英交流中达到“同传”。

不止是语音,视觉方向也一并实现了焕新升级。

阶跃同期推出了 Step-1o Vision 多模态模型,作为 Step-1o 的视觉版本,与 Step-1V 和 Step-1.5V 两款更早版本的视觉理解模型相比,实现了模型架构升级,并在在视觉识别、感知、指令跟随、推理等任务上实现大幅提升,拥有了更强的视觉性能。

此前,在 LMSYS Org 发布的大模型竞技场 Chatbot Arena 榜单中,Step-1V 便已位列视觉领域国内大模型第一,总分同 Gemini-1.5-Flash-8B-Exp-0827 持平。

这次升级版的 Step-1o Vision 又一战成名,刚刚发布便在 1 月 20 日 LMSYS Org 最新榜单中,拿下了国内视觉领域大模型第一,超过所有国内大模型厂商,保持住了在多模态领域的领先地位。

LMSYS Org 网址:https://lmarena.ai/

据阶跃官方介绍,Step-1o Vision 能够更准确地识别图像内容,不管是复杂场景还是相似图片都能轻松识别,甚至能精确识别图中的多种语言。

此外,Step-1o Vision 不仅能看懂图片,还能根据图片内容进行推理、辅助答题、激发灵感:

上下滑动查看长图

同 Step-1.5v 相比,Step-1o Vision 所关注到的细节也更多:

图源阶跃星辰

值得一提的是,在推理模型的研发上,阶跃也正在融入其所擅长的多模态,多模态推理在此次上新中崭露头角,其重磅推出了 Step 系列首款推理模型 Step R-mini,这同时也意味着阶跃成为目前基座模型最全的公司之一。

根据阶跃方面数据显示,Step R-mini 不仅在 AIME 和 Math 等数学基准测试上,成绩超过了 o1-preview,比肩 OpenAI o1-mini,在 LiveCodeBench 代码任务上,也比 o1-preview 效果更佳。

从具体效果上来看,Step R-mini 既擅长主动进行规划、尝试和反思,又能通过慢思考和反复验证的逻辑机制提供准确可靠的回复。

同时,其最鲜明的亮点在于,已经通过大规模强化学习训练,并使用 On-Policy(同策略)强化学习算法,实现了“文理兼修”,既擅长通过超长推理能力,解决逻辑推理、代码和数学等复杂问题,也能兼顾文学创作等通用领域。

在实际应用中,只会做数理题的模型其实是很难实现推广落地的,而只有做到“文理双修”,模型才能在具备较强推理逻辑能力和数理能力的同时,拥有更通用任务的解决能力,如此进一步提升可用性。

语言推理模型外,阶跃也在推进视觉推理模型的研发。

其试图将推理能力融入更多交互形态的大模型中,针对复杂视觉场景下的 Reasoning 问题,引入慢感知和空间推理的思想,把 Test-Time Scaling 从文本空间转移到视觉空间,实现在视觉空间下的 Spatial-Slow-Thinking。据 AI 科技评论了解,这一模型的正式版本将在今年上线。

除了前所述三款模型,阶跃此番针对 Step-Video 视频生成模型也进行了升级,推出 Step-Video V2 版本。

Step-Video 是阶跃在去年 11 月上新的模型,此次发布的V2版本在复杂运动、美感、简单文字生成、中英双语输入和镜头语言方面具备更强的生成能力。

AI 科技评论也对此进行了一波实测——

我们发现,在输入“小男孩变身毒液”后,Step-Video V2 能自动一键润色出细节更丰富的内容,并补充暗色调、模糊背景等环境描写,自然将这部分融入视频场景中:

同时,对于镜头语言也进行了增添,自动帮我们决定了以“特写镜头”展现,有效提升了视频的叙事能力。此外,画面中的小男孩形象逼真,一整套变身过程也非常流畅、自然。

此外,Step-Video V2 也支持中英双语输入,在进行复杂运动展现这方面也能轻松驾驭:

Prompt: A skeleton wearing a flower hat and sunglasses dances in the wild at sunset.

值得一提的是,生成内容的美感也是阶跃一直在聚焦突破的方向,这一点从其前面推出的 Step-2 文学大师版也同样能窥见,而 AI 生成视频的美学素养也是很多现有模型还无法兼具的,对此,我们也在跃问视频中进行测试:

以中华传统文化的展现为例,我们向跃问输入了“身着传统服饰、打着伞的女子”“灯笼背景”的提示词,其能自动润色出“穿着一袭红色的旗袍,上面绣着精致的花纹,手持一把纸伞,伞面是白色的,上面绘有水墨画,与她的服饰相得益彰。”这些带有中国风特色元素的内容。

所生成的视频整个画面色彩很协调,当中融入了中国红作为主色调,背景的灯笼也并非死板的单一色彩,并能隐约看到布景中的水墨画,此外,对于提示词中提到的“带有精致花纹的红旗袍”“印有水墨画的伞”这些细节也能够覆盖还原到:

2

「文学素养」领先行业

多模态模型俨然成为阶跃的拿手好戏,但其自研的语言模型实力也同样不容忽视。

去年 3 月,成立之初的阶跃发布万亿参数语言大模型 Step-2 一鸣惊人。而 Step-2 作为国内首个由创业公司发布的万亿参数大模型,直观体现了 Scaling Law 定律的红利。

在阶跃看来,对于语言模型而言,Scaling Law 是重中之重,而模型容量、训练数据量是模型语言、文字功底的基石,模型小、预训练数据量小无法实现智能涌现,亦无法把握文字。

Step-2 也曾多次在 LiveBench 等国际权威榜单上位列国产大模型第一。

去年11月,在 LiveBench 的多项测评标准中,Step-2 在 IF Average(指令跟随)的表现上以 86.57 的分数排在第一,超越包括 o1-preview-2024-09-12 在内的所有国内外语言大模型。

这一指标主要衡量模型对语言生成细节的控制力,而这点在文字创作上的表现尤为显著。在生成高质量、有创意的文字内容的同时,Step-2 模型是能够根据用户的指令对文本进行精确调整和优化的。

此次,在 Step-2 的基础上,阶跃又带来了性价比和商用性更高的 Step-2mini 语言模型和精于创作的 Step-2 文学大师版。

据阶跃官方介绍,和万亿参数大模型 Step-2 相比较,Step-2mini 以 3% 左右的参数量保有了其 80% 以上的模型性能。

同时,Step-2mini 还拥有更快的生成速度和极高的性价比——在输入4000tokens的情况下,Step-2mini 的平均首字时延仅 0.17 秒,输入 1 元/百万 token;输出 2 元/百万 token。

从底层技术上来看,Step-2mini 采用了阶跃和清华团队在《Multi-matrix Factorization Attention》中提出,其自主研发的新型注意力机制架构——MFA(Multi-matrixFactorizationAttention,多矩阵分解注意力)及其变体 MFA-Key-Reuse。

论文链接:https://arxiv.org/abs/2412.19255

此前在 LLM 推理阶段,传统注意力机制存在着 KV 缓存随着批处理大小和序列长度线性增长的情况,这不仅使得内存占用大,推理效率也并不高,常用的 MHA(Multi-HeadAttention,多头注意力)也一直在尝试解决这一问题,但其存在性能和资源消耗间的平衡难题。

MFA 则针对前述问题给出了解法,相比于 MHA 架构,MFA 节省了近 94% 的 KV 缓存开销,拥有更快的推理速度,并大幅降低了推理成本。换言之,MFA 在不增加额外工程复杂度的前提下,解决了大语言模型高效推理的显存瓶颈问题。

Step-2 文学大师版则是阶跃专为创作场景研发的语言模型,沿袭了 Step-2 广袤的知识储备以及对文字强大的细节把控能力,同时也有着更为强大的内容创作能力。

此前,用大模型辅助创作的内容就经常会被吐槽一眼 AI,创作出来的内容往往缺乏锐度和新意,没有真情实感和对社会事件的描绘与思考,这本质上是模型过度对齐社会共识所致。

而好的内容创作模型则是需要充分理解用户创作需求的,逻辑严密、语言凝练、言之有物、节奏紧凑,并且拥有深刻思想和和独特风格,才是这类模型要达成的目标,Step-2 文学大师版的测试结果恰恰印证了这点:

例如,让跃问以明朝为背景创作第一人称悬疑小说,并融入《明书·太祖载记》的内容,带有天灾、地裂、克苏鲁等元素。其所创作出的内容确实有模有样,所有关键词无一遗漏,甚至对于天灾、地裂的描述衔接也十分流畅,在克苏鲁这一怪物形象的塑造上也很生动。科幻小说其也同样不在话下:

上下滑动查看长图

上下滑动查看长图

3

基模领域「六边形战士」

现如今,随着基座大模型玩家洗牌,竞争已进入更加白热化的下半场,一边是对 AGI 理想的坚持,一边是面对现实的妥协,部分厂商仍在摸索基座大模型的未来,另外一部分则在技术和产品间反复横跳,亦或是直接改变了方向。

阶跃则一直属于前者,从基座模型来看,阶跃其实也是国内为数不多已形成从理解到生成、从文本、多模态到推理全系列模型矩阵,并坚持预训练,继续冲击 AGI 的大模型创业公司之一。

自成立初起,阶跃便一直坚持认为——多模理解和生成的统一是通往 AGI 的必经之路,而模型的演化必然会经历单模->多模->世界模型三个阶段。

其技术发展也是沿着“单模态—多模态—多模理解和生成的统一—世界模型—AGI(通用人工智能)”这条路径一步步走来的。

当前,阶跃的多模态应用已经愈发广泛,并被业内多数开发者所认可,持续领跑行业:

例如,网红 AI 应用胃之书的开发者赵纯想就曾表示,通过 AB 测试发现,阶跃星辰的模型付费率最高,而 AI 心理疗愈应用林间疗愈室 CEO 李神龙也在接入阶跃的多模态理解大模型后,实现了用户付费率的提升。

而从整体上来看,无论是去年一月一更的 11 款基座大模型,还是今年一开年便加大攻势推出的 6 款模型,在如此厚积薄发下,阶跃的技术发展无疑已驶入快车道,而其低调务实的做派下也尽显追逐 AGI 的野心。

如今的阶跃星辰,无疑已经成为了基座模型领域的“六边形战士”。

更多内容,点击下方关注:

未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!

公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
国家对成品油价格采取临时调控措施

国家对成品油价格采取临时调控措施

新京报
2026-03-23 15:26:08
三峡大坝蓄水近22年,成了鱼类的天堂,如今里面最大的鱼有多大?

三峡大坝蓄水近22年,成了鱼类的天堂,如今里面最大的鱼有多大?

冰语历史
2026-03-23 09:10:45
伊媒:一架美战斗机被击中,在科威特坠落!伊朗喊话特朗普:你被解雇了!我驻以使馆再提醒:中国公民摒弃侥幸心理,尽快回国或转移撤离

伊媒:一架美战斗机被击中,在科威特坠落!伊朗喊话特朗普:你被解雇了!我驻以使馆再提醒:中国公民摒弃侥幸心理,尽快回国或转移撤离

每日经济新闻
2026-03-23 16:03:07
奥赖利双响,曼城2-0终结阿森纳四冠王梦想,瓜帅创历史比肩传奇

奥赖利双响,曼城2-0终结阿森纳四冠王梦想,瓜帅创历史比肩传奇

钉钉陌上花开
2026-03-23 05:37:53
上海这个区要起飞了?直达宁波,最快40分钟!中国最长跨海大桥安排上!

上海这个区要起飞了?直达宁波,最快40分钟!中国最长跨海大桥安排上!

上观新闻
2026-03-22 15:06:17
高市早苗访美照片曝光!日本网友称观感不适

高市早苗访美照片曝光!日本网友称观感不适

大风新闻
2026-03-23 10:34:06
首个AI打车正式上线 滴滴重塑出行服务的确定性

首个AI打车正式上线 滴滴重塑出行服务的确定性

豹变
2026-03-21 08:00:03
伊朗打击3800公里外美军迪戈加西亚基地,释放何种信号?

伊朗打击3800公里外美军迪戈加西亚基地,释放何种信号?

澎湃新闻
2026-03-23 07:22:28
加沙童婚率上升

加沙童婚率上升

老王说正义
2026-03-22 23:43:17
大心脏!郑钦文苦战137分钟2-1逆转 爆冷掀翻前澳网冠军 杀进16强

大心脏!郑钦文苦战137分钟2-1逆转 爆冷掀翻前澳网冠军 杀进16强

侃球熊弟
2026-03-23 06:57:00
伊朗媒体:一架美国战斗机被击落

伊朗媒体:一架美国战斗机被击落

新华社
2026-03-23 15:15:07
中石化发短信提醒加油!此轮油价上涨有多离谱?

中石化发短信提醒加油!此轮油价上涨有多离谱?

热点科技
2026-03-23 13:35:25
伊朗也低估了特朗普的决心

伊朗也低估了特朗普的决心

修明札记
2026-03-23 11:48:35
上海一中介为吃26万差价竟分饰两角:和卖家签“托底”,和买家签“居间”

上海一中介为吃26万差价竟分饰两角:和卖家签“托底”,和买家签“居间”

上观新闻
2026-03-23 06:53:05
沉默的大多数,被起亚新狮铂拓界,挖掘出了“沉默的需求”

沉默的大多数,被起亚新狮铂拓界,挖掘出了“沉默的需求”

汽车投诉网
2026-03-23 15:12:38
霍尔木兹海峡,大消息!特朗普发声!黄金、白银,跳水!原油,突变!

霍尔木兹海峡,大消息!特朗普发声!黄金、白银,跳水!原油,突变!

证券时报e公司
2026-03-23 07:57:08
国家出手 意大利燃油价格大幅度下降

国家出手 意大利燃油价格大幅度下降

奋斗在意大利
2026-03-20 20:28:00
金价,断崖式下跌

金价,断崖式下跌

第一财经资讯
2026-03-22 17:13:00
这是一张巩俐年轻时剧照,演的特别真实的,四十岁以上基本都看

这是一张巩俐年轻时剧照,演的特别真实的,四十岁以上基本都看

阿废冷眼观察所
2026-03-23 10:33:59
“惨案”:伊朗命中以色列核工业城,造成200多人伤亡!

“惨案”:伊朗命中以色列核工业城,造成200多人伤亡!

胜研集
2026-03-22 08:09:41
2026-03-23 16:23:00
AI科技评论 incentive-icons
AI科技评论
点评学术,服务AI
7138文章数 20742关注度
往期回顾 全部

科技要闻

裁掉2万多名员工后,扎克伯格对自己下手了

头条要闻

长在中国大陆的"日本人"怂恿台出兵 帮美护航霍尔木兹

头条要闻

长在中国大陆的"日本人"怂恿台出兵 帮美护航霍尔木兹

体育要闻

不敢放手一搏,你拿什么去争冠?

娱乐要闻

刘烨47岁生日,安娜晒全家福为其庆生

财经要闻

沪指险守3800点 全市场超百股跌停

汽车要闻

岚图汽车香江鸣锣 一场关于"国家队"的突围实验

态度原创

时尚
本地
旅游
数码
教育

“这条裙子”才是今年春天的顶流,怎么搭都好看

本地新闻

这里是宝鸡 嫽滴很!

旅游要闻

来德州,一起“趣”露营

数码要闻

DRAM价格飙升100% 国内“稳定器”稳住供应

教育要闻

青春期孩子,总是愤怒,无原由的愤怒

无障碍浏览 进入关怀版