网易首页 > 网易号 > 正文 申请入驻

接力DeepSeek,阶跃星辰直接开源两款国产多模态大模型

0
分享至

机器之心报道

作者:泽南

两款 Step 系列开源多模态大模型,性能位列开源多模态全行业第一。

本周二,国内 AI 创业公司阶跃星辰和吉利汽车集团宣布联合开源两款多模态大模型。

这两款大模型分别是视频生成模型 Step-Video-T2V 和行业内首款产品级开源语音交互模型 Step-Audio。根据官方的测评报告,目前 Step-Video-T2V 是全球范围内参数量最大、性能最好的开源视频生成模型。

Step-Video-T2V 模型部署及技术报告链接:

  • GitHub:https://github.com/stepfun-ai/Step-Video-T2V
  • Hugging Face:https://huggingface.co/stepfun-ai/stepvideo-t2v
  • Modelscope:https://modelscope.cn/models/stepfun-ai/stepvideo-t2v
  • 技术报告:https://arxiv.org/abs/2502.10248

和此前引爆全球科技界的 DeepSeek R1 一样,阶跃星辰的 Step-Video-T2V 视频生成模型,采用最为宽松的 MIT 许可协议,支持免费商用、任意修改和衍生开发,为开源社区带来了新的技术思路启发。这次发布也意味着阶跃星辰成为大模型开源世界的又一股中国力量。

与此同时,两款大模型均已可以在「跃问」App上进行体验,视频模型还可以在桌面端使用:https://yuewen.cn/videos

阶跃星辰的大模型在 AI 社区引发了关注。Hugging Face 工程师、前谷歌 TensorFlow 团队成员 Tiezhen Wang 表示,阶跃星辰简直就是下个 DeepSeek:

Hugging Face 官推也转贴了他的评论。

GPT-J 作者 Aran Komatsuzaki 贴出了用新模型生成的视频。

更多网友对国内 AI 公司对开源社区的贡献表示了欢迎。

最强开源视频模型

会运镜、生成形象好、还擅长运动

初步体验一下,可以感觉到 Step-Video-T2V 显著提升了视频生成 AI 能力的上限。我们看看目前人们用跃问视频生成的效果。

首先要关注的是在电影、视频短片中最显制作者「功力」的镜头调度能力:

低角度旋转镜头围绕着一个鼓手和他的架子鼓。鼓手穿着深色T恤和浅色裤子,戴着帽子,手臂上有纹身。

视频链接:

https://mp.weixin.qq.com/s/Rz4CYNi8oSp_kRqNfWtSfA?token=2135979591&lang=zh_CN

在晴朗的海滩上,一个男孩正在建造沙堡。镜头以俯视角度拍摄,展现他专注的神情和灵巧的双手。

视频链接:

https://mp.weixin.qq.com/s/Rz4CYNi8oSp_kRqNfWtSfA?token=2135979591&lang=zh_CN

看起来Step-Video-T2V 具备强大的运镜能力,它能够实现推、拉、摇、移、旋转、跟随等多种镜头运动方式,还能支持不同景别之间的切换。

其次是生成式 AI 的老大难问题 —— 人物运动的姿态。

一个精灵,在森林中起舞,身旁是萤火虫环绕,月光透过树叶,慢速展现精灵的轻盈,画面梦幻唯美。

视频链接:

https://mp.weixin.qq.com/s/Rz4CYNi8oSp_kRqNfWtSfA?token=2135979591&lang=zh_CN

跳水。

视频链接:

https://mp.weixin.qq.com/s/Rz4CYNi8oSp_kRqNfWtSfA?token=2135979591&lang=zh_CN

很多例子显示,Step-Video-T2V 擅长复杂运动生成,无论是高雅优美的芭蕾舞、对抗激烈的空手道、紧张刺激的羽毛球,还是高速翻转的跳水,新模型都展现出了对复杂运动场景的优秀把控能力。

我们也很关心 AI 生成人物形象和表情的合理性,在这方面 Step-Video-T2V 也做得不错。

人物模糊化失焦拍摄,一个女孩的侧脸,披肩黑色长卷发,戴着红色贝雷帽,穿着蓝色毛衣,正在笔记本电脑前打字。

视频链接:

https://mp.weixin.qq.com/s/Rz4CYNi8oSp_kRqNfWtSfA?token=2135979591&lang=zh_CN

从众多案例中我们可以发现,Step-Video-T2V 生成的人物形象相比此前的多模态大模型更加逼真、生动,细节更丰富,表情也更自然。AI 生成的人物五官、发型、皮肤纹理都更加细腻。

从生成效果来看,Step-Video-T2V 在复杂运动、人物美感、视觉想象力、基础文字生成、原生中英双语输入和镜头语言等方面具备强大能力,并具有突出的语义理解和指令遵循能力,可以帮助人们更精准地呈现创意。

惊艳的视频生成效果背后,是阶跃星辰自研且具有创新性的基础多模态大模型。

Step-Video-T2V 在开源的同时也第一时间放出了技术报告,可知该模型的参数量达到 300 亿,可以单次直接生成 204 帧、540P 分辨率的高质量视频。这意味着大模型能够确保生成的视频内容具有极高的信息密度和一致性。

Step-Video-T2V 的架构概览。

在模型细节上,为了实现更加逼真的视频生成,研究人员设计了深度压缩变分自编码器 Video-VAE,它实现了 16×16 的空间压缩比。与绝大多数 8×8×4 压缩比的 VAE 模型相比,Video-VAE 能够在相同视频帧数下额外压缩 8 倍,从而实现训练和生成效率提升 64 倍的效果。

Video-VAE 架构。

与此同时,阶跃使用流匹配训练了一个具有 3D 全注意力机制的 DiT,用于将输入噪声去噪成潜在帧,还应用了基于视频的 DPO 方法以减少伪影并提高生成视频的视觉质量。

双语文本编码器和具有 3D Attention 的 DiT 的模型架构。

为了对开源视频生成模型的性能进行全面评测,阶跃星辰还开源了针对文生视频质量评测的基准数据集 Step-Video-T2V-Eval。该测试集包含 128 条源于真实用户的中文评测问题,旨在评估生成视频在运动、风景、动物、组合概念、超现实、人物、3D 动画、电影摄影等 11 个内容类别上质量。

Step-Video-T2V-Eval 评测结果。

评测结果显示,Step-Video-T2V 的模型性能在指令遵循、运动平滑性、物理合理性、美感度等方面全面超越了此前行业内性能最好的开源模型。

产品级语音交互模型

高情商还懂方言

在语音交互一侧,阶跃星辰开源的 Step-Audio,能够根据不同场景生成情绪、方言、语种、歌声和个性化风格的表达,让 AI 能和用户自然地进行高质量对话。

这里有一些实测例子。在 Step-Audio 加持下,我们发现现在的 AI 还懂得了很多人情世故:

Step-Audio 的反应速度很快,生成的语音也非常自然,还具备不错的情商。据悉,Step-Audio 也能实现高质量音色复刻和角色扮演,可满足影视娱乐、社交、游戏等行业场景的应用。

在 LlaMA Question、Web Questions 等五大主流公开测试集上,Step-Audio 的性能均超过行业内同类型开源模型,位列第一。另外,Step-Audio 在汉语水平考试六级 HSK-6 评测中的表现尤为突出,成为了最懂中国话的开源语音交互大模型

此外,根据阶跃自建并开源的多维度评估体系 StepEval-Audio-360 基准测试显示,Step-Audio 在逻辑推理、创作能力、指令控制、语言能力、角色扮演、文字游戏、情感价值等维度均取得了最佳成绩。

具体来说,Step-Audio 的技术探索为多模态开源社区带来了五个方面的贡献:

  • 多模态理解生成一体化:单模型完成语音识别、语义理解、对话、语音生成等功能,并开源了千亿参数多模态模型 Step-Audio-Chat 版本;
  • 高效合成数据链路:Step-Audio 突破传统 TTS 对人工采集数据的依赖,能生成高质量的合成音频数据,实现合成数据生成与模型训练的循环迭代,并同步开源了首个基于大规模合成数据训练,支持 RAP 和哼唱的指令加强版语音合成模型 Step-Audio-TTS-3B;
  • 精细语音控制:支持多种情绪(如生气、高兴、悲伤)、方言(如粤语、四川话)和唱歌(包括 RAP、干声哼唱)的精准调控;
  • 扩展工具调用:通过 ToolCall 机制,Step-Audio 能够集成搜索引擎、知识库等外部工具,进一步提升其在 Agents 和复杂任务上的表现;
  • 高情商对话与角色扮演:基于情感增强与角色扮演强化的 RLHF 流程,提供了人性化回应并支持定制化角色设定。
  • GitHub 链接:https://github.com/stepfun-ai/Step-Audio
  • Hugging Face:https://huggingface.co/collections/stepfun-ai/step-audio-67b33accf45735bb21131b0b
  • Modelscope:https://modelscope.cn/collections/Step-Audio-a47b227413534a
  • 技术报告:https://github.com/stepfun-ai/Step-Audio/blob/main/assets/Step-Audio.pdf

「多模态卷王」阶跃星辰

正成为新锐开源力量

ChatGPT 发布仅过去两年,生成式 AI 领域已经历了翻天覆地的变化。我们见证了巅峰时期 300 家大模型的同台竞技,转变成「大模型 n 小龙」在不同赛道上的努力探索。自去年底,DeepSeek 的爆发又仿佛一阵强心剂,激起了业界新一轮更加激烈的竞争。

新的局面下,GPU 数量和数据体量优势不再是创业公司难以逾越的壁垒。与此同时,一些坚持技术路线的公司正在逐渐显现优势。

与很多逐渐转向应用侧的大模型公司不同,阶跃一直专注于技术驱动的发展思路,不断投入资源迭代基础模型。凭借技术的深厚积累,阶跃星辰一直在多模态领域领先业界。

从产品布局来看,阶跃的大模型涵盖语音识别、语音复刻及生成模型、视频理解模型、图像生成模型、视频生成模型、多模态理解等各种类别,而且研发速度极快,自成立以来已先后发布了 11 款。

从成绩上看,阶跃的 Step 系列多模态模型曾多次在国内外权威大模型评测榜单上位列「中国大模型第一」。不论开源社区还是合作伙伴,都已对阶跃的大模型有了充分的认可。

在 OpenCompass 多模态模型评测实时榜单上,Step-1o 大模型名列业内第一。

真正以构建 AGI 为最终目标的团队,必然会选择坚持预训练和基座大模型的研发。阶跃星辰曾披露过自己的 AGI 路线图,「单模态 —— 多模态 —— 多模理解和⽣成的统⼀ —— 世界模型 ——AGI」。

这样的思路在今天发布的 Step-Video-T2V 技术报告中有了体现。阶跃星辰定义了构建视频基础模型的两个级别:

  • Level 1 是翻译视频的基础模型。此类模型可充当跨模态翻译系统,能够从文本、视觉或多模态上下文生成视频。目前基于扩散的文本转视频模型如 Sora、Veo、Kling、Hailuo 和 Step-Video 系列都属于 Level 1。
  • Level 2 则是「可预测视频基础模型」。此级别的模型充当预测系统,类似于大语言模型(LLM),可以根据文本、视觉或多模态上下文预测未来事件,并处理更高级的任务,例如使用多模态数据进行推理或模拟真实世界场景。

技术报告中,工程师们介绍了开发 Level 2 级视频基础模型需要解决的关键问题。如果我们能够对视频中潜在的因果关系进行建模,就能够生成更加复杂的动作序列,以及真正遵守物理定律的视频,让多模态拥有像如今 LLM 中涌现的「推理」。

这样的理念与李飞飞和她在 World Labs 中的工作不谋而合。可见在多模态大模型领域,新的方向已逐渐清晰。

可以预见,DeepSeek 爆发之后,更多的国内领先开源技术将会兴起,成为 AI 领域中不可忽视的力量。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
韩庚演唱会槽点满满!身材发福唱跳能力下降,还被网友调侃像黄渤

韩庚演唱会槽点满满!身材发福唱跳能力下降,还被网友调侃像黄渤

娱乐团长
2025-09-14 17:36:26
倒计时10天!国乒15人出战WTT中国大满贯,赛事总奖金1460万

倒计时10天!国乒15人出战WTT中国大满贯,赛事总奖金1460万

乒谈
2025-09-15 06:10:15
高圆圆比龙妈居然还要白,到底谁才是白种人?

高圆圆比龙妈居然还要白,到底谁才是白种人?

手工制作阿歼
2025-09-05 10:14:23
两对夫妻自驾游,夜晚同睡一个帐篷,妻子没睡,目睹丈夫的举动

两对夫妻自驾游,夜晚同睡一个帐篷,妻子没睡,目睹丈夫的举动

星宇共鸣
2025-09-15 17:13:22
第一次坐埃塞俄比亚航空,没想到非洲乘客……

第一次坐埃塞俄比亚航空,没想到非洲乘客……

行者老湖
2025-07-17 09:43:56
16岁Kimi最新照片曝光:眉眼酷似林志颖,目测身高已超180cm

16岁Kimi最新照片曝光:眉眼酷似林志颖,目测身高已超180cm

千言娱乐记
2025-09-15 23:54:08
石平太郎遭中方制裁后新进展:曾嚣张称是荣誉,如今哭求撤销制裁

石平太郎遭中方制裁后新进展:曾嚣张称是荣誉,如今哭求撤销制裁

谈史论天地
2025-09-15 09:54:09
以军被曝在加沙开展杀人游戏 疑似视频曝光!

以军被曝在加沙开展杀人游戏 疑似视频曝光!

看看新闻Knews
2025-09-14 18:08:09
善恶终有报,曾经在求职节目里咄咄逼人的老板,如今竟沦落成这样

善恶终有报,曾经在求职节目里咄咄逼人的老板,如今竟沦落成这样

白面书誏
2025-07-21 13:42:49
半夜床边站着陌生人,32分钟8次溜进卧室,拿手电盯着女子,丈夫在旁呼呼大睡

半夜床边站着陌生人,32分钟8次溜进卧室,拿手电盯着女子,丈夫在旁呼呼大睡

英国那些事儿
2025-07-24 23:24:05
首次!解放军大动作,重磅出击!

首次!解放军大动作,重磅出击!

李荣茂
2025-09-15 07:08:47
盘点从俞敏洪手里出走的6位大佬,罗翔最让人意外,罗永浩混最差

盘点从俞敏洪手里出走的6位大佬,罗翔最让人意外,罗永浩混最差

户外钓鱼哥阿旱
2025-09-14 12:20:04
泡泡玛特新品遇冷,15个交易日市值蒸发超千亿

泡泡玛特新品遇冷,15个交易日市值蒸发超千亿

21世纪经济报道
2025-09-15 19:43:58
某员工向老板举报,说同事利用办公室的打印机,经常给小孩打印作业,结果老板反问她,你举报的目的何在?

某员工向老板举报,说同事利用办公室的打印机,经常给小孩打印作业,结果老板反问她,你举报的目的何在?

LadyDaily
2025-09-02 16:42:12
三只羊复播!嘴哥超紧张,直播间人数超10万,乔妹瘦了好多

三只羊复播!嘴哥超紧张,直播间人数超10万,乔妹瘦了好多

180视角
2025-09-15 23:41:14
西贝事件反转!贾国龙被扒"假意"道歉,罗永浩暴怒:劝我的都绝交

西贝事件反转!贾国龙被扒"假意"道歉,罗永浩暴怒:劝我的都绝交

派大星纪录片
2025-09-15 12:04:38
这还是林允吗?

这还是林允吗?

吃瓜党二号头目
2025-07-21 08:09:12
“日本最强中国功夫”女播音员公开了自己最新的旗袍照片,引热议

“日本最强中国功夫”女播音员公开了自己最新的旗袍照片,引热议

随波荡漾的漂流瓶
2025-09-13 16:50:20
你身边出轨的人多吗?网友:成年人的世界真的好乱!

你身边出轨的人多吗?网友:成年人的世界真的好乱!

带你感受人间冷暖
2025-09-12 00:15:09
“牡丹花下死,做鬼也风流”!如今,谁也救不了44岁的宋小宝

“牡丹花下死,做鬼也风流”!如今,谁也救不了44岁的宋小宝

山河月明史
2025-07-08 14:24:38
2025-09-16 02:28:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
11296文章数 142450关注度
往期回顾 全部

科技要闻

官方:英伟达违反反垄断法 将施进一步调查

头条要闻

中美就TikTok等经贸问题在西班牙马德里举行会谈

头条要闻

中美就TikTok等经贸问题在西班牙马德里举行会谈

体育要闻

诺维茨基退役十年后,德国篮球走向巅峰

娱乐要闻

60岁张曼玉定居法国:瘦成皮包骨?

财经要闻

华与华秒怂 罗永浩称已接到对方道歉

汽车要闻

后轮转向和5C 2026款梦想家把想到的都给了

态度原创

房产
数码
本地
家居
公开课

房产要闻

当海口书包房卷向「未来」,这里的孩子和房价,都在高速超车!

数码要闻

Apple Watch 全新高血压通知功能现已推出

本地新闻

云游中国 | 草原驭秋风 祁连山邂逅黑河源头

家居要闻

典雅大气 舒适中带童趣

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版