阶跃星辰：大模型「new game」里的新玩家|算法|模态|视频生成模型

分享至

「AI 一日，人间一年。」

作者 | 连冉
编辑| 郑玄

在 2024 年 3 月 23 日的全球开发者先锋大会上，一家通用大模型初创公司——阶跃星辰，正式对外发布了 Step 系列通用大模型，包括 Step-1 千亿参数语言大模型、Step-1V 千亿参数多模态大模型以及 Step-2 万亿参数 MoE 语言大模型预览版。

据阶跃星辰 CEO 姜大昕透露，2023 年 8 月，Step-1 千亿参数语言大模型一次性训练成功，用时仅有两个月，综合性能超过 GPT-3.5；11 月，千亿参数的多模态大模型 Step-1V 也训练完成；Step-2 万亿参数 MoE 语言大模型预览版，则是国内大模型初创公司首次发布的万亿参数模型。

刚刚过去的 2023 年，国内大模型领域经历了「百模大战」。现在都 2024 年了，这家初创公司为何此时现身？

因为「new game」开始了。尽管过去一年，一度每隔一天就有一个新的大模型官宣，不到 10 月便已有超过 230 个大模型，但当下回头再看，很多的模型已经悄然沉默，停止更新。

一个变化是，围绕 Scaling Law（即模型规模扩大带来的性能提升）的业界共识正在逐渐清晰。业界关心的问题早已不再是简单的模型发布，而是模型是否能够持续沿着 Scaling Law 的路径，不断提升规模和性能。

在这个新的阶段，谁能掌握 Scaling Law 的力量，谁才能在这个「new game」中脱颖而出。

同时，多模态也是这局「new game」的关键。OpenAI 的发展路径以及 Sora 最近给到所有人的冲击已证明了这一点。在文本模型发展到一定阶段之后，多模态模型将成为通向 AGI 的重要路径。

阶跃星辰选择在这个时刻公开过去一段时间的「潜水成果」。自成立起，阶跃星辰就在算力、数据、算法和系统这四大要素上综合布局，在大模型技术路径上坚定投入攀登 Scaling Law，更是在成立初期就已认识到多模理解和生成的统一是通往 AGI 的必经之路。他们相信，自己来的时间刚好，甚至在这场「new game」里已占据先机。

千亿起步，万亿在途，

长于多模态理解的模型

阶跃星辰，这家从成立时就备受关注的大模型公司，在 3 月 23 日的全球开发者先锋大会上，正式发布了积淀一年的成果——Step 系列通用大模型。

首先是 Step-1 千亿参数语言大模型，两个月一次性训练成功，已完成充分打磨，在逻辑推理、中文知识、英文知识、数学、代码方面的性能全面超越 GPT-3.5。

Step-1V 千亿参数多模态大模型，则在中国权威的大型模型评估平台「司南」（OpenCompass）多模态模型评测榜单中位列第一，性能比肩 GPT-4V。

特别值得关注的是 Step-1V 的多模理解能力突出，可以精准描述和理解图像中的文字、数据、图表等信息，并根据图像信息实现内容创作、逻辑推理、数据分析等多项任务。此外，Step-1V 亦可实现视频理解。

同时，阶跃星辰还发布了 Step-2 万亿参数语言大模型预览版，提供 API 接口给部分合作伙伴试用。该模型采用 MoE 架构，聚焦深度智能的探索。据了解，参数量从千亿到万亿，增长了一个数量级，对算力、系统、数据、算法四个方面都提出了极高的要求，业内只有极少数公司能做到。

能够千亿参数一次训练成功，并且高效率训练万亿参数模型，体现了阶跃星辰的核心技术能力，而这背后是面向 AGI 目标更加精准设计的核心团队构成。

阶跃星辰的 CEO 姜大昕同时也是团队里的算法负责人。第一次接触到 ChatGPT 时，他被震撼到了。

多年的研究工作让他清楚地知道，对于自然语言处理而言，常识和推理是两个最难的问题，此前如果向聊天机器人提问年龄，一般基于检索的聊天机器人并不具备要用今天的日期减去「出生」日期的常识，就会乱答一气，但 ChatGPT 给出了不一样的回答，「我是 2019 年被训练完成的，今天是 2022 年的一天，所以我今年 3 岁了」，常识和推理能力已具备。

姜大昕意识到，ChatGPT 是一个划时代的技术变革。但如果继续待在微软，他只能在 OpenAI 的模型上去做一些应用，模型的「黑盒」不会向他开放，他想打开模型的「黑盒」，自己做算法，自己从底层做出更大的颠覆，「这才是让我真正感到有激情，一定要自己亲自去做的一件事情」。创业的念头就在此间形成。

想法有了，接着就是团队的搭建。姜大昕认为大模型发展非常依赖数据的质量，目前在阶跃星辰负责数据团队的焦斌星博士，是前微软必应引擎核心搜索团队负责人，此前在微软待了 11 年，基本都在研究搜索引擎相关，而这些经验，特别是在跨语言数据上的 Bing 搜索引擎上的独特积累，对于中国大模型训练数据的优化和训练效率与质量的提升，至关重要。

算法、数据之外，对于大模型而言，重要的还有系统，只有具备足够强的系统能力，才能在 Scaling Law 的「无限算力」需求上持续探索。阶跃星辰的系统负责人朱亦博，也在微软研究院度过了不少时间，拥有多次单集群万卡以上的系统建设与管理实践经验。这种大算力系统的经验，是极其宝贵的。

同在一线经历过去 10 年 AI 更新迭代，在 ChatGPT 这波大模型到来的时候，姜大昕他们三人意识到，「这是一个非常大的技术变革，一定要自己下场，以最快速、最灵活、最全面的方式来投身到变革中去。」2023 年 4 月，阶跃星辰成立，一个在算法、数据和系统三大要素上国内最强的团队组合，自此诞生了。

姜大昕坚信自己的团队是国内能够把 Scaling Law 运用到最好的团队。与此同时，阶跃星辰与国内其他大模型公司最大的不同，就是一上来不只是先复现和追赶 OpenAI 的文本模型能力，更要追求多模态理解和生成的统一，因为他相信如果最终目标是实现 AGI，这种统一是最重要的路径，这也是随着过去一年技术发展不断揭开迷雾后，越来越明确的判断。

多模态能力也是阶跃星辰最核心的优势之一。从 OpenAI 推出 Sora 的动作可以看出，语言模型的发展一方面在 Scaling Law 下看到了确定的路径，同时语言模型也在进一步推动多模态能力的突破，比如 GPT-4V 对于 Sora 训练中标注的作用，已经带来了令人期待的新发展空间，所以大模型接下来在多模态领域的发展，特别是对理解和生成的统一上，是一个「new game」，也是更加重要的方向

据了解，阶跃星辰不止训练了自己的大模型，也已经围绕 Step-1 和 Step-1V 千亿参数大模型，推出了两款 C 端产品，效率工具「跃问」和 AI 开放世界平台「冒泡鸭」，均已全面开放使用。

「冒泡鸭」里有剧情，有人物，用户可以在其中开放探索，主打有趣、好玩，强调模型的高情商；「跃问」则是一款效率工具，主打有用，强调模型的高智商。同时，这两款产品的共同点在于在多轮对话、执行指令以及进行逻辑推理方面的强性能。

此外，阶跃星辰在金融、网络文学、知识服务等领域也已与财联社、中文在线、中国知网等合作伙伴达成深度合作，推进大模型的应用落地。

「new game」里

需要新玩家和新能力

虽然这是阶跃星辰第一次正式对外亮相，但事实上，布局从一年前就已展开。去年 4 月，阶跃星辰成立，7 月开始训练千亿参数模型 Step-1，8 月底训练成功，11 月，千亿参数的多模态模型 Step-1V 也训练完成。

之所以在「百模大战」已进行了一年之后还有勇气入局，是因为在算力、系统、数据、算法四个方面，阶跃星辰都有自己的技术底气在。

算力上，阶跃星辰从成立开始就意识到算力的重要性，自建机房和云上租用算力同时进行，目前，阶跃星辰拥有训练万亿参数模型相应的算力。

同时，正是因为团队知道算力的稀缺和宝贵，所以阶跃星辰也格外强调系统的重要性。系统的功劳在于，如果系统设计得当做出优化，可以放大算力的利用率。

姜大昕在采访中谈到，「说到系统，如果是数万张卡，裸机放在一起是没有用的，是没有办法训练模型的。要训练模型一定要搭建一个系统，在上面组成一个高性能的训练平台。这当中的难点在于要把数万张卡放在单一集群里，同时还要保证集群的稳定与高效，这其中稍不注意就会踩坑」，阶跃之所以没踩坑，是因为有朱亦博博士组建和带领的强大的系统团队。据悉，朱亦博拥有多次单集群万卡以上的系统建设与管理实践经验。

如此不懈攀登「Scaling Law」，是因为姜大昕及团队对 AGI 的追求。而如何才能通向 AGI？在他看来，多模态理解和生成的统一是必经之路。

这是一条切实可行的路径吗？姜大昕深以为然。行业领先的 OpenAI 其实也在走这条路。尽管它最近的动作令人眼花缭乱，包括先后推出 DALL·E、Sora 、投资机器人公司 Figure，去年「宫斗」的过程中还传出了神秘 Q* 计划……但这些动作在姜大昕看来其实自有其脉络：一条主线+两条支线：

主线：大模型的演进——这一演进分为三个阶段：

早期阶段：语言、视觉、声音等不同模态独立发展，各自学习如何表征特点。
当前阶段：尽管多种模态开始走向融合，但理解模型和生成模型是分开发展的。造成的结果就是理解模型的理解能力强而生成能力弱（比如 GPT-4V），或者生成模型的生成能力强但理解能力弱（比如 Sora）。
「人创造不出自己不理解的东西」，这句话对AI也一样适用。要解决这个问题，理解和生成必须统一在一个模型里面，即多模理解和生成的统一是通向 AGI 的必经之路，年初 Sora 模型的发布已经为之拉开了帷幕。
未来阶段：有了理解和生成的统一，就可以进一步和具身智能结合起来，形成一个世界模型。再进一步，在世界模型的基础上加入复杂任务的规划能力和抽象概念的归纳能力，就真正演化到了 AGI 的阶段。

第一条支线：具身智能。将多模态模型应用于机器人或其他设备，使其能与物理世界交互，自主收集数据，建立世界模型，并在此基础上加入复杂任务规划能力和抽象概念归纳能力，以实现 AGI。OpenAI 投资机器人公司 Figure，就是走具身智能这条支线。
第二条支线：超级对齐。通过 Q*计划等，OpenAI 可能在解决系统对齐问题，补足 System 2（大脑的复杂任务规划、抽象概念归纳等能力）。

OpenAI 的发展路径对姜大昕及核心团队有所启发，但其实一开始，阶跃星辰就已确定了路径为此，在公司办公室，就画有单模-多模-具身智能-世界模型的发展阶段图。

阶跃星辰此次推出的 Step-1、Step-2 是单模态的语言模型，Step-1V 是多模理解模型，以及其他正在研发中的模型，正是沿着这一思路展开。他甚至觉得在技术发展的这个阶段出发，可能是一件好事。「如果 AGI 是一个需要长期攀登的山峰，看到正确的路径，建立正确的能力，比早走几步更加重要。」

姜大昕觉得过去一年里，虽然公司一直在低调前进，没有亮相，但他一直处于一种创业的亢奋状态中。他感慨「AI 一日，人间一年，每天都被很多新消息冲击，世界变化真是非常快。在微软，这些消息都只是看到了，但跟我又有什么关系呢？只是感觉整个世界在身边呼啸而过，留下自己在风中凌乱。所以我当时一定要出来创业。」

如今，「百模大战」已过一年，并不缺另一个模型下场，但行业的发展也进入新周期，从 GPT-4 到 Gemini，多模态能力成为新的焦点。而阶跃星辰在过去一年的积淀，和其设定的发展方向，可能正是支持其在此时正式亮相，成为「new game 里的新玩家」的底气所在。

*头图来源：2024 GDC 大会

本文为极客公园原创文章，转载请联系极客君微信 geekparkGO

本周四晚，小米即将发布SU7车型，持续 3 个月的价格争论也将迎来终局。在手机领域，小米的精髓是性价比；而当它的第一款车进入竞争激烈的细分市场，小米如何实现与对手间的差异化，打出亮眼的好牌？

3月28日（周四）18:30，来极客公园视频号直播间，一起陪你看小米SU7发布会！

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.