网易首页 > 网易号 > 正文 申请入驻

阶跃星辰姜大昕:坚定攀登Scaling Law

0
分享至



大模型赛道又迎来一家新企业。

作者|赵健

3月23日,一家颇为低调的通用大模型创业公司——阶跃星辰在2024全球开发者先锋大会上正式亮相。

阶跃星辰成立于2023年4月,是微软系创业的大模型公司,目前有150人左右。阶跃星辰创始人、CEO姜大昕,是前微软全球副总裁、微软亚洲互联网工程院首席科学家,也是阶跃星辰的算法负责人。

阶跃星辰的核心创始团队包括系统负责人朱亦博和数据负责人焦斌星。朱亦博此前先后在微软、字节跳动等公司从事算力集群相关工作,拥有多次单集群万卡以上的系统建设与管理实践经验;焦斌星此前担任微软必应引擎核心搜索团队负责人,负责利用数据挖掘和NLP算法优化索引和搜索质量。

随核心创始团队一同亮相的还有阶跃星辰的Step系列通用大模型,包括Step-1千亿参数语言大模型、Step-1V千亿参数多模态大模型以及Step-2万亿参数MoE语言大模型预览版。

同时,阶跃星辰还发布了两款面向C端的产品「跃问」与「冒泡鸭」。跃问是AI聊天类应用,定位个人效率助手;冒泡鸭是由剧情和角色组成的AI开放世界,满足娱乐和社交需求。

阶跃星辰以“智能阶跃,十倍每一个人的可能”为使命,以实现AGI为目标,并提出了两点核心认知:一是坚信Scaling Law,在算力、算法、数据与系统四要素综合布局;二是把多模态理解与生成的统一作为走向AGI的必经之路。

近期,「甲子光年」等与阶跃星辰核心创始团队进行了一场深度交流,详细揭开这家大模型公司的神秘面纱。

1.“ChatGPT让我懵了很长一段时间”

为什么要离开微软迈上大模型的创业旅程?

作为一名“微软老兵”,姜大昕在微软做了16个年头,他大学毕业之后不久就加入了微软亚洲研究院。

姜大昕把他的微软生涯分成了两个阶段。第一阶段是做研究。但姜大昕是一个不太安分的研究员,总想着如何把自己的研究工作与产品结合起来。2008年,姜大昕和团队获得了SIGKDD(国际数据挖掘与知识发现大会)的最佳论文奖,这个奖项看重的是研究工作在实际产品中创造的价值和影响力。

第二阶段始于2011年,姜大昕从研究院换到产品组,负责必应搜索引擎的研发,负责产品的同时兼任互联网工程院的首席科学家。搜索引擎既有非常多的算法,又是一个庞大的工程化工作。在此期间,姜大昕团队发表了很多论文,获得了数万次的引用,同时把每一代的技术(CNN、LSTM、BERT等)都用在了搜索产品中。

2022年,ChatGPT出现了。姜大昕问ChaGPT的第一个问题是:“你多大了?”在过去,这个对人类而言再简单不过的问题,会难倒所有的机器,因为基于检索的机器无法建立“常识”与“推理”。但ChatGPT的回答是,它在2019年被训练完成,今年是2022年,所以是3岁。

姜大昕又问:“你明年多大?”这个问题的难点在于要理解明年是“今年+1”,然后再把数字代进去算一遍,这个过程就是推理。ChatGPT又回答出来了。

ChatGPT的回答让姜大昕非常非常震撼,“有种鸡皮疙瘩出来的感觉”,让姜大昕懵了很长一段时间。

姜大昕意识到ChatGPT是一个划时代的技术变革。他形容当时每天的心情都是“世界从身边呼啸而过,留下自己在风中凌乱”。姜大昕希望了解更多ChatGPT背后的技术细节,但是OpenAI的模型是一个黑盒,只能调用API。

姜大昕有点不甘心,他希望能解开模型背后的秘密,甚至对模型算法做出更好的改善。既然在微软无法实现,那就只有躬身入局。于是,创业的念头产生了。

姜大昕准备找一些志同道合的人聊聊。结果还没出门找别人,焦斌星博士就先一步找上门了。

姜大昕跟焦斌星在屋子里聊了两个多小时,两人的想法完全一致,不甘心在别人的模型上做应用,而是想亲自下场做模型。

于是,两位微软同事一拍即合。但是做大模型只有算法和数据还不够,算力与系统能力也至关重要。姜大昕找来了此前拥有多次单集群万卡以上的系统建设与管理实践经验的朱亦博,三人成行。

2023年4月,阶跃星辰正式成立。

2.坚定攀登Scaling Law

阶跃星辰的名字来自阶跃函数(step function)。姜大昕认为,通用人工智能会让每个人、每个领域迎来从0到1的跃变时刻,因此也需要用更坚定的信念去一步一步(step by step)地实现它。

阶跃星辰的目标跟OpenAI一样,都瞄向了最终的AGI。姜大昕与团队对AGI进行了深入思考,并总结了关于AGI的两个认知。

首先,阶跃星辰坚信OpenAI提出的Scaling Law。

姜大昕认为,过去几年不同的大模型一再验证了Scaling Law的可行性。模型的参数量相当于人脑的神经元数量,它决定了模型能力的上限。人脑神经元之间的连接大约有200万亿次,目前大模型还远未达到这一量级。

但是提升模型参数并非易事。比如,从头训练一个GPT-3.5量级的千亿模型已经是一个不低的门槛,但从千亿扩大到万亿,模型只增长10倍,难度却增长几十倍,这其中需要“算法、系统、算力、数据”四要素的综合布局,非常考验一家创业公司的能力,也决定了这家公司能走多远。

在算力层面,GPT-4训练大约用了2.5万张A100。如果要训练一个万亿参数模型,大约需要数万张等效于A800的高性能芯片。

阶跃星辰成立的第一天起就意识到算力是非常重要的战略资源。一方面通过自建机房,另一方面采用了云上算力,目前具备训练万亿参数模型的算力。其次,仅是算力堆积还不够。因为裸机放在一起是没办法训练模型的,需要搭建一个“系统”,在上面构建一个高效能的训练平台。搭建系统的难点在于要把数万张卡放在单一集群中。如果是不同的集群,集群与集群之间需要通讯,而这个通讯速度非常慢,无法支撑模型训练的高效能计算。

单一集群的难点在于保证集群的高效与稳定,一方面,让芯片的计算、内存、网络通讯像流水线一样时刻保持运行,提高资源的利用率。另一方面,要保证在万卡中出现单卡的故障时,不影响整个系统的训练。

对算力系统进行极致优化,需要具有前瞻性的认知和丰富的经验,阶跃星辰的系统负责人朱亦博正是这方面的专家。阶跃星辰训练千亿模型的MFU(有效算力输出)为57%。作为对比,LLama 2 70B模型的训练MFU大约为45%。

此前,“系统”在大模型的重要性往往被低估了。比如,前谷歌大脑高级研究科学家Yi Tay辞职创业做大模型,在今年3月6发表博客《Training great LLMs entirely from ground up in the wilderness as a startup》感慨从头搭建系统有多难。在大厂时有大厂稳定的系统集群作为保障,而出来创业搭建系统的坑每一个都要亲自走一遍。

姜大昕从前到后仔仔细细读了这篇博客,却没法与作者共情。“后来我转念一想,是因为我们有一个强大的系统团队,如果不是亦博的话,我们可能掉过很多次坑了”。姜大昕说道。

第三个要素是数据,数据质量决定模型质量。

在训练大模型时,阶跃星辰遇到的最大的挑战是中文高质量数据的匮乏。比如常用的数据集CommonCrawl中仅有0.5%中文可用有效数据。

怎么办呢?阶跃星辰发现,其实大模型对语言不敏感,一个知识点不管用中文还是英文,都能学会,语言对于大模型只是一种编码方式而已。因此,阶跃星辰拿互联网上的全球语料来弥补中文语料的缺失,而在微软做过搜索引擎的数据团队,对此有非常深入的了解与实践。在非公开的行业数据层面,阶跃星辰与国内优秀的数据资源实现深度合作。最后一个要素是算法。阶跃星辰对于算法的摸索尝试可以总结为一句话——多模态的理解与生成的统一。这也是阶跃星辰对实现AGI的第二个认知总结。

3.理解了OpenAI,也就理解了阶跃星辰

在介绍阶跃星辰的算法路线之前,先看一下业内标杆OpenAI的路线。

OpenAI号称要实现AGI,而它的产品动作令人眼花缭乱。除了语言模型GPT系列之外,OpenAI还发布了文生图模型DALL-E、文生视频模型Sora,投资了具身智能公司Figure,在“宫斗”期间放出Qstar计划,OpenAI CEO萨姆·奥尔特曼还去中东准备融资7万亿美元实现他的芯片计划。

OpenAI背后的统一逻辑是什么?姜大昕认为,OpenAI看似杂乱无章的动作背后,其实一直是在沿着一条主线、两条支线在推进其AGI计划。



姜大昕表示,大模型的演进将会经历三个阶段。早期阶段是语言、视觉、声音各个模态独立发展,当前阶段是多模融合阶段,比如GPT-4V可以理解输入的文字与图像,Sora可以根据输入的文字、图像与视频生成视频。

但现阶段的多模态融合还不彻底,“理解”与“生成”两个任务是分开进行的,造成的结果是GPT-4V理解能力强但生成能力弱,Sora生成能力强但理解能力有时候很差。姜大昕认为,多模态理解与生成的统一是走向AGI的必经之路,这是一个非常关键的认知。

基于此认知,姜大昕也猜测Sora不是最终目标,只是一个中间状态。OpenAI下一个发布的模型,很有可能是多模态理解与生成的统一模型。

当理解与生成统一之后,就可以与具身智能结合起来,让模型与物理世界进行交互,自己收集环境数据,从而进一步建立世界模型;在世界模型的基础上,再加上复杂任务的规划、抽象概念归纳的能力,Qstar的强化学习算法能力,以及超级对齐能力,就有可能实现AGI。

姜大昕对于OpenAI的AGI路径看的很清楚,但并非跟着OpenAI的节奏亦步亦趋。阶跃星辰从成立之初也想清楚了这条主线,公司展厅的展板上就画出了从单模态模型到世界模型的不同发展阶段。

基于上述认知与工作准备,阶跃星辰公布了三款大模型以及两款产品。

Step-1是一个单模态的千亿语言模型,性能全面超越GPT-3.5;Step-1V是千亿参数多模态大模型,对标GPT-4V;Step-2是万亿参数的MoE语言大模型(预览版),综合体感对标GPT-4。

在落地方向上,阶跃星辰没有选择做落地更快但有更多定制化的to B,而是把重心放在了市场空间更大,但仍需要找到PMF的to C。

目前,阶跃星辰围绕Step-1和Step-1V千亿参数大模型的产品和生态已经打磨成熟,推出了两款面向C端用户的大模型产品——跃问和冒泡鸭。跃问是AI聊天类应用,定位个人效率助手;冒泡鸭是由剧情和角色组成的AI开放世界,满足娱乐和社交需求。

此外,阶跃星辰在金融、网络文学、知识服务等领域已与合作伙伴达成深度合作,共同探索面向C端用户的创新应用。在金融领域,阶跃星辰与上海报业旗下界面财联社达成深度合作,双方围绕 AIGC 财经资讯、智能投研、智能投顾等领域推进大模型的应用落地。在网络文学领域,阶跃星辰与中文在线独家达成深度战略合作,共同探索大模型在灵感激发、内容创作等网络文学创作领域的应用。在知识服务领域,阶跃星辰与中国知网、中文在线达成战略合作,围绕大众知识服务等场景研究和推进大模型的应用。

姜大昕表示阶跃星辰的使命是:“智能阶跃,十倍每一个人的可能。”

(封面图及文中配图来源:阶跃星辰)

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
女乘客为了省5块钱,叫了6次特惠快车,等了一个小时才叫到车

女乘客为了省5块钱,叫了6次特惠快车,等了一个小时才叫到车

今日搞笑分享
2024-06-02 21:00:10
6月起,新一轮“涨价潮”要开始了?3样东西或大涨,需早做准备

6月起,新一轮“涨价潮”要开始了?3样东西或大涨,需早做准备

猫叔东山再起
2024-05-31 20:09:42
那时候的标语,可以笑死人。。。

那时候的标语,可以笑死人。。。

记录生活日常阿蜴
2024-04-27 07:55:03
双榜暴跌!中国女排0-3溃败,惨遭日本反超,世联赛跌至第六

双榜暴跌!中国女排0-3溃败,惨遭日本反超,世联赛跌至第六

天涯沦落人
2024-06-02 21:01:00
经济下行,形势挺严重的,好多人已经3个月没发工资了

经济下行,形势挺严重的,好多人已经3个月没发工资了

影响力人物
2024-05-27 21:19:04
听说过捡尸吗?有些寂寞少妇,喜欢在醉酒后躺在酒吧门口等着被捡

听说过捡尸吗?有些寂寞少妇,喜欢在醉酒后躺在酒吧门口等着被捡

戎安鸽
2023-01-13 18:34:11
宁波这个绝佳位置的商业广场人流寥寥,许多店铺空置招商!

宁波这个绝佳位置的商业广场人流寥寥,许多店铺空置招商!

靓仔情感
2024-06-02 21:06:08
上市公司摆烂大戏!董事长挂断深交所电话,成泉资本精准接盘...

上市公司摆烂大戏!董事长挂断深交所电话,成泉资本精准接盘...

金石随笔
2024-06-03 00:06:39
中国女排降至第7!或丢奥运资格,朱婷暗批蔡斌?王云蕗遭到网暴

中国女排降至第7!或丢奥运资格,朱婷暗批蔡斌?王云蕗遭到网暴

元爸体育
2024-06-03 01:46:20
这谁顶得住嘛!泰勒·斯威夫特这身材,这才是尤物啊!

这谁顶得住嘛!泰勒·斯威夫特这身材,这才是尤物啊!

冷却爱情
2024-04-25 18:28:15
恭喜中国女排!争进奥运会又一对手出局:亚洲冠军0-3,远离前十

恭喜中国女排!争进奥运会又一对手出局:亚洲冠军0-3,远离前十

侃球熊弟
2024-06-02 17:25:11
美国带头松口 这场冲突走向更加不确定

美国带头松口 这场冲突走向更加不确定

国际在线
2024-06-01 20:08:13
真被张召忠说中了?掏空国库建造的2艘航母,如今彻底沦为废铁

真被张召忠说中了?掏空国库建造的2艘航母,如今彻底沦为废铁

高山非凡创作
2024-05-16 07:48:51
中国五级政府体制规模庞大,机构数量及人员规模详解

中国五级政府体制规模庞大,机构数量及人员规模详解

窝在家里做文化
2024-05-27 10:32:28
巨大争议!李梦承认了?穿超短裙露出数字3333,球迷:难以理解

巨大争议!李梦承认了?穿超短裙露出数字3333,球迷:难以理解

何老师呀
2023-07-21 15:10:56
减肥“神药”司美格鲁肽大翻车,使用后阳痿的风险增加4.5倍?Nature子刊最新研究给出警示!

减肥“神药”司美格鲁肽大翻车,使用后阳痿的风险增加4.5倍?Nature子刊最新研究给出警示!

梅斯医学
2024-06-01 07:54:04
A股最后的提醒,主力已经明牌了,明天周一的剧本已经出炉

A股最后的提醒,主力已经明牌了,明天周一的剧本已经出炉

静守时光落日
2024-06-02 11:40:24
没想到老年人的瓜这么多!网友的评论太炸裂,我小脑都萎缩了

没想到老年人的瓜这么多!网友的评论太炸裂,我小脑都萎缩了

夢婷
2024-01-05 12:09:08
汪小菲儿子砸场麻六记,直播中辣评酸辣粉,隔着屏幕替汪小菲绝望

汪小菲儿子砸场麻六记,直播中辣评酸辣粉,隔着屏幕替汪小菲绝望

娱乐八卦木木子
2024-06-03 01:58:09
小写生活,大写美

小写生活,大写美

花小猫的美食日常
2024-06-02 21:28:14
2024-06-03 02:50:44
甲子光年
甲子光年
中国科技产业化前沿智库
2730文章数 9210关注度
往期回顾 全部

财经要闻

新造车5月销量: 小鹏乏力 问界暂"缺席"

头条要闻

女子称穿7cm厚洞洞鞋下楼时崴脚摔倒 左腿粉碎性骨折

头条要闻

女子称穿7cm厚洞洞鞋下楼时崴脚摔倒 左腿粉碎性骨折

体育要闻

从0-1到2-1!石宇奇绝地反击逆转队友李诗沣,豪夺赛季第3冠

娱乐要闻

白玉兰提名:胡歌、范伟争视帝

科技要闻

黄仁勋:2026年将推下代GPU架构平台Rubin

汽车要闻

吉利银河E5 Flyme Auto智能座舱首发

态度原创

亲子
家居
本地
手机
公开课

亲子要闻

脾胃有“3怕”快阻止娃,已有孩子发育停滞

家居要闻

风雅自来 中式的和谐平衡

本地新闻

食味印象|歙县限定!枇杷味儿的清甜初夏

手机要闻

性价比手机也分三六九等,4个价位的佼佼者已出炉,你选对了吗?

公开课

近视只是视力差?小心并发症

无障碍浏览 进入关怀版