AI会“察言观色”了？阶跃星辰发布开源 SOTA级端到端语音大模型|sota|深度思考模型

AI会“察言观色”了？阶跃星辰发布开源 SOTA级端到端语音大模型

2025-09-01 16:45:02　来源: 纵相新闻

上海举报

分享至

东方网记者王佳妮9月1日报道：9月1日，阶跃星辰正式发布其最新的开源端到端语音大模型Step-Audio 2 mini，该模型在多个国际权威基准测试中取得了SOTA（State-of-The-Art，即当前最佳水平）成绩。

在技术架构上，Step-Audio 2 mini采用了真正的端到端设计，将语音理解、音频推理与声音生成进行统一建模。这一创新不仅显著降低了交互时延，提升了响应速度，更使其能够精准捕捉和理解情绪、语调等副语言信息以及环境音、音乐等非人声信号，大幅提升了人机语音交互的效率与智能上限。

随着语音交互成为主流，市场对模型的“智商”和“情商”都提出了更高要求。Step-Audio 2 mini为此首创了音频推理能力，能深刻理解人类语言中的“弦外之音”，并作出自然且符合情境的回应。同时，该模型率先支持语音原生的Tool Calling功能，可实现联网搜索等复杂操作，有效缓解了AI模型的幻觉问题，使其具备了比肩文本模型的强大知识储备与推理能力。

目前，这项前沿技术已成功落地。此前，吉利发布的全新车型吉利银河M9，便搭载了阶跃星辰的端到端语音大模型，成为行业内该技术路线首次实现量产上车的标杆案例。阶跃星辰方面表示，公司正与吉利、鲸鱼机器人、TCL等头部终端厂商深化合作，推动语音大模型在更多生活场景中落地。

作为多模态技术领域的积极贡献者，阶跃星辰今年以来已向全球开源社区贡献了8款覆盖语音、视频生成、图像编辑及3D等多个方向的先进模型。目前，Step-Audio 2 mini已在GitHub、Hugging Face等平台开放下载，供开发者与用户体验。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.