网易首页 > 网易号 > 正文 申请入驻

深度对话阶跃星辰创始人姜大昕:“百模大战”下,大模型如何产生更大价值?|钛媒体AGI

0
分享至

​“我意识到ChatGPT是一个划时代的技术变革。一定要自己下场,以最快速、最灵活、最全面的方式来投身到变革中去。”

2024年3月下旬,前微软全球副总裁,如今的阶跃星辰创始人、CEO姜大昕博士对钛媒体App表达他对于下场做大模型的决心。

早在一年前,笔者就从行业里面听说了“阶跃星辰”这家非常非常低调的公司——背景很强大、多位前微软团队成员参与其中。

去年9月,阶跃星辰已将超过GPT-3.5的Step-1千亿参数大模型开放给合作伙伴使用,同时还获得了备案审批。很多行业里面的人对这个团队给予厚望。

相比其他大模型玩家的高调入场,阶跃星辰在过去一年几乎处于“隐形”,这样的低调是令人好奇的,也促使我希望更快深度了解这家公司。

但没想到,我这一等就等了近一年。

如今,阶跃星辰终于对外亮相。今年3月23日2024全球开发者先锋大会上,阶跃星辰首次发布了Step系列通用大模型,包括Step-1千亿参数语言大模型,Step-1V千亿参数多模态大模型,以及Step-2万亿参数MoE语言大模型预览版——这也是国内初创公司里面的首个万亿参数大模型。

接近两小时的闭门交流中,姜大昕向钛媒体App坦言,过去一年内,在国内“百模大战”这一喧嚣背景下,阶跃星辰选择埋头研发技术和产品。训练万亿参数模型体现了阶跃星辰的核心技术价值,也说明了公司探索AGI(通用人工智能)的决心。

发布Step系列大模型,继续攀登Scaling Law

自1956年至今,AI 技术经历了三个重要阶段。

前两次 AI 浪潮中,所有人期盼的十年“AI 效应”这一看法泡沫破灭。不管是芯片“摩尔定律”速度跟不上 AI 的算力要求,还是数据量不够、算法不强、商业化不如预期,均让我们对 AI 保持着长期质疑的态度。

2018年底,BERT模型横空出世,在经典的阅读理解测试集上超越了人类准确率的水平,是自然语言处理领域的巨大突破事件节点,也是迈向AGI的第一个节点。

姜大昕在2021年的一场活动演讲中表示,BERT集成了此前深度学习在自然语言处理领域已经取得的成果,显得特别强大,主要有特征学习、自监督学习等特点。采用了自监督的学习方式,BERT能够自己构造训练数据、利用网页数据作为训练集,从而训练上亿参数大模型。

在他看来,预训练模型就像本科生学习各种基础课,而微调是研究生学习专业课,基础知识掌握比较牢固,学习专业课就比较容易——这就是BERT的主要思想。

然而,Transformer的出现让大模型有了另外一种可能。基于自注意力机制的Transformer模型,让更多人理解和生成自然语言文本。如今,基于Transformer的模型会做得越来越大,能力越来越强。

姜大昕强调,大规模语言模型突破开创了“预训练+微调”新范式。

姜大昕2005年就获得纽约布法罗州纽约州立大学计算机科学博士,并在微软工作了16年有余,曾带领团队研发微软Bing必应搜索、Cortana智能助手等业务产品,在机器学习、数据挖掘、自然语言处理、生物信息等领域拥有丰富的经验和工程经验。

离开微软时,姜大昕担任微软全球副总裁,所在部门为STCA(微软亚洲互联网工程院)。

2020年3月,微软推出图灵模型,参数量是上一代的10倍,达到了170亿参数;仅仅三个月后,OpenAI推出了GPT-3 模型,翻了超10倍,达到1750亿参数,轰动一时。

2022年底,OpenAI发布基于GPT-3.5模型的 AI 聊天机器人ChatGPT,风靡全球,成为迈向 AGI 的第二个节点。

“千亿参数的GPT-3.5模型是一个重要的分水岭。要达到 GPT-4 的万亿规模参数,各个维度的要求都上了一个台阶。训练万亿模型需要等效 A800 万卡单一集群,高效稳定的训练,十万亿 tokens高质量的数据,加上驾驭新颖的 MoE 架构。这里面有任何一个短板,Scaling Law(缩放规律)就很难攀登上去。”姜大昕告诉钛媒体App。

基于这样一个判断,姜大昕自身负责算法工作,同时找到微软搜索引擎团队负责搜索排序相关性的leader 焦斌星,以及曾在微软亚洲研究院的朱亦博,分别负责数据和系统,成立了阶跃星辰这家公司,剑指AGI。

姜大昕表示,阶跃星辰这个名字也很有趣。它的灵感来自阶跃函数(Step Function)——神经网络中最早的激活函数,其图像对应着我们 logo 中阶梯的形状。一方面,阶跃本身就有跳变、跃迁、超线性增长的意思,另一方面,step by step,扎实地做好手上的工作,这也是公司基因。

对于通往AGI的路径,姜大昕和其团队有着自己的认知和判断。

姜大昕认为,通向 AGI 会经历三个阶段:一是早期阶段,语言、视觉、声音不同模态独立发展,模态之间没有关系,每个模型所要做的是学习如何更好地表征各自模态的特点;二、如今多种模态已开始走向融合,但这个融合并不彻底,主要是理解任务、多模生成任务分开,造成模型的理解能力强但生成能力弱,或者反之;三、下一步一定是将生成和理解统一在一个模型里。多模态理解和生成统一后,就可以和“具身智能”结合起来。把模型作为机器人或者一个设备的大脑,让它去探索这个世界,与世界进行交互。

姜大昕强调,多模理解和生成的统一是通向AGI的必经之路。

从2023年两个月内训练出的Step-1千亿参数语言大模型,到今年Step-2万亿参数MoE语言大模型预览版,阶跃星辰正一步一步推进大模型研发。

其中,Step-1 是千亿参数语言模型,在模型架构、算法和系统上进行创新,拥有优秀的长文理解和生成能力、多轮指令跟随能力以及现场学习能力,同时能够实现单卡低比特超长文本的高效推理。Step-1在逻辑推理、中文知识、英文知识、数学、代码方面表现出色,性能全面超越GPT-3.5。

Step-1V的多模理解能力突出,可以精准描述和理解图像中的文字、数据、图表等信息,并根据图像信息实现内容创作、逻辑推理、数据分析等多项任务。此外,Step-1V亦可实现视频理解。据大型模型评估平台“司南”(OpenCompass)多模态模型评测榜单显示,阶跃星辰研发的Step-1V 千亿参数多模态大模型位列第一,性能比肩 GPT-4V。

最新的Step-2万亿参数语言大模型则采用 MoE(混合专家模型)架构,聚焦深度智能的探索。据了解,参数量从千亿到万亿,增长了一个数量级,对算力、系统、数据、算法四个方面都提出了极高的要求,业内只有极少数公司能做到。

姜大昕指出,攀登Scaling Law 是一个“铁人四项”的超级工程,而阶跃星辰在算力、系统、数据和算法四大要素方面不断发力。

其中,算力,通过自建机房+租用算力,积极进行算力储备;系统,阶跃星辰团队实践过单集群万卡以上的系统建设与管理,训练千亿模型的 MFU(有效算力输出)达 57%;数据,数据团队核心骨干来自必应搜索引擎,曾支持全球 100 多种语言,为 200 多个国家和地区提供服务,对全球互联网高质量语料的分布有深入了解,并建立起强大的数据处理和知识图谱流水线;算法,团队不仅能驾驭各种架构,比如万亿参数的 MoE 架构,而且对大模型的认知以及发展路线有深刻洞察。

“我坚信Scaling Law,训练更大模型。同时,我们能洞察AGI路线,追求多模理解和生成的统一,而 Step 系列大模型将为多模理解和生成的统一奠定坚实基础。”姜大昕表示。

国内 AIGC 产业价值将达1.1万亿元,Step大模型落地To C端

随着大模型爆火,消费级 AI 应用将有望成为中国下一个万亿级市场机会。

据艾瑞咨询发布的最新报告显示,2023年,中国生成式AI(AIGC)产业规模约为143亿元,预计到2030年,中国AIGC产业生态日益稳固,完成重点领域、关键场景的技术价值兑现,中国AIGC产业规模届时有望突破万亿元,达到11441亿元。

万亿产业规模、13亿人的参与,促使中国在 To C 端的 AI 应用会比To B 端有更大规模效应。

阶跃星辰目前主打C 端场景,在此方面通过自有产品和合作产品两种方式,展开了积极探索。团队已研发并推出两款面向C端用户的大模型产品——效率工具“跃问”和AI开放世界平台“冒泡鸭”,均已全面开放使用。

具体来说,“跃问”是一款聊天机器人和 AI 效率工具平台,可支持图片上传以及文档上传,支持联网搜索。而“冒泡鸭”则是一款 AI陪伴型应用,可以选择对应角色的智能体对话。一个比较好的交互是在对话结束后智能体会主动给出可选择的回复,比单纯的打字要方便很多。

“我把模型和产品的关系比喻成灵魂和皮囊。大家一定听过一句话,好看的皮囊千篇一律,有趣的灵魂万里挑一。我们希望灵魂能更加有趣一点才能显示出产品的不同。”姜大昕表示。

此外,阶跃星辰在金融、网络文学、知识服务等领域已与合作伙伴达成深度合作,共同探索面向C端用户的创新应用。比如在金融领域,阶跃星辰与合作伙伴共同打造国内首个千亿参数多模态金融大模型——“财跃F1金融大模型”,并且与中文在线、中国知网等合作推进大模型应用。

当下,大模型技术的研发和落地应用仍在快速迭代和探索中,围绕这一前沿技术,聚集最顶尖的人才与丰厚的战略资源,无疑是大模型创业公司的核心竞争力。而阶跃星辰是其中的佼佼者。

钛媒体App了解到,2023年,阶跃星辰拿下了多家顶级VC机构的投资。目前阶跃星辰选择“闭源+开放生态”,自身研发通用大模型,把模型能力通过API等形式对外开放,让更多的开发者和企业开发应用,共同创造应用场景和行业生态。

(本文首发钛媒体App,作者|林志佳)

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
神童暴瘦37公斤后亮相,网友:像融化的蜡烛

神童暴瘦37公斤后亮相,网友:像融化的蜡烛

追星雷达站
2026-05-13 11:58:36
黄晓明爆再当爸!「妇产科停留1小时」画面曝光 工作室急发声

黄晓明爆再当爸!「妇产科停留1小时」画面曝光 工作室急发声

达达哥
2026-05-13 10:22:50
我一直纠结刘涛的长相很久了,昨天拿去让老人家帮忙看看面相。

我一直纠结刘涛的长相很久了,昨天拿去让老人家帮忙看看面相。

小光侃娱乐
2026-05-13 11:59:03
老了才看透:父弱母强的家庭,养出来的孩子,大多是这两种结局

老了才看透:父弱母强的家庭,养出来的孩子,大多是这两种结局

心理观察局
2026-05-11 10:00:27
北大学生体验插翅飞行,仅一周后大脑就以为人长了翅膀

北大学生体验插翅飞行,仅一周后大脑就以为人长了翅膀

返朴
2026-05-12 09:57:32
中央定调!2026年养老金传来好消息,养老金1500元,涨3%难不难?

中央定调!2026年养老金传来好消息,养老金1500元,涨3%难不难?

小彬说事
2026-05-13 11:40:55
村民被眼镜王蛇咬伤打13支血清 专家:我国尚无专门血清,可用抗银环蛇毒血清加抗眼镜蛇毒血清

村民被眼镜王蛇咬伤打13支血清 专家:我国尚无专门血清,可用抗银环蛇毒血清加抗眼镜蛇毒血清

封面新闻
2026-05-11 19:00:03
结婚才2年,萧敬腾就尝到老妻少夫的残酷,其实舒淇早就把话说透

结婚才2年,萧敬腾就尝到老妻少夫的残酷,其实舒淇早就把话说透

枯蝶
2026-05-11 09:20:17
正式退出,樊振东遗憾,国乒选拔规则曝光,2小将+梁靖崑有戏

正式退出,樊振东遗憾,国乒选拔规则曝光,2小将+梁靖崑有戏

懂球社
2026-05-13 15:00:08
黄仁勋现身空军一号!英伟达美股夜盘直线拉升

黄仁勋现身空军一号!英伟达美股夜盘直线拉升

财闻
2026-05-13 09:58:10
老婆升职后立马离婚改嫁领导,三天后前岳母来电:快来医院交50万

老婆升职后立马离婚改嫁领导,三天后前岳母来电:快来医院交50万

千秋文化
2026-05-11 20:33:49
最高院:提供 “口交” “肛交”等进入式性服务,是否属卖淫行为?

最高院:提供 “口交” “肛交”等进入式性服务,是否属卖淫行为?

周军律师聊案子
2026-04-21 09:50:16
蒋介石为何能当上黄埔军校的校长?周恩来:这两个人的帮助很大!

蒋介石为何能当上黄埔军校的校长?周恩来:这两个人的帮助很大!

兴趣知识
2026-05-12 21:14:48
山东25岁女子征婚被网友群嘲,奇葩要求让人无语至极

山东25岁女子征婚被网友群嘲,奇葩要求让人无语至极

映射生活的身影
2026-05-12 10:44:30
NBA无聊的季后赛第2轮即将结束:赛程随意、2组横扫、裁判控场

NBA无聊的季后赛第2轮即将结束:赛程随意、2组横扫、裁判控场

铁甲西奇
2026-05-13 14:58:09
伊朗为何突然猛打阿联酋?背后是一场危险的中东变局

伊朗为何突然猛打阿联酋?背后是一场危险的中东变局

老羊漫话
2026-05-13 07:42:19
开国上将黄永胜,被判17年,出狱后分三套房子并告诉他五个安排

开国上将黄永胜,被判17年,出狱后分三套房子并告诉他五个安排

莫地方
2026-05-06 00:25:03
贝森特代表特朗普赴日,效果很明显,高市很识时务,没有乱说话

贝森特代表特朗普赴日,效果很明显,高市很识时务,没有乱说话

起喜电影
2026-05-13 15:37:24
都不看好哈登骑士天王山?即使米切尔找到状态,但客场虫属性太强

都不看好哈登骑士天王山?即使米切尔找到状态,但客场虫属性太强

只扣篮的教练
2026-05-13 15:30:22
性感女星泫雅回应十年老粉 曾被指身材发福脸部浮肿

性感女星泫雅回应十年老粉 曾被指身材发福脸部浮肿

TVB的四小花
2026-05-13 16:19:46
2026-05-13 16:52:49
钛媒体APP incentive-icons
钛媒体APP
独立财经科技媒体
133503文章数 862155关注度
往期回顾 全部

财经要闻

盘中最高4041.99点!创业板创历史新高

头条要闻

出租车司机被两老外"拐跑":3万车费从海南开到黑龙江

头条要闻

出租车司机被两老外"拐跑":3万车费从海南开到黑龙江

体育要闻

14年半,74万,何冰娇没选那条更安稳的路

娱乐要闻

白鹿掉20万粉,网友为李晨鸣不平

科技要闻

谷歌剧透安卓重大升级 Gemini深度集成底层

汽车要闻

4月BBA无一款车型销量破万 新能源渗透率首破60%

态度原创

健康
亲子
房产
手机
公开课

干细胞能让人“返老还童”吗

亲子要闻

人生路上有九种气,一定要告诉孩子

房产要闻

海口禁摩,3.3万名车主要慌了!

手机要闻

消息称追觅AURORA手机将于今年第四季度发布

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版