网易首页 > 网易号 > 正文 申请入驻

阶跃星辰姜大昕:追求AGI初心不变,打造多模态和Agent的差异化

0
分享至

行业的技术发展还是在非常陡峭的区间,阶跃不想在这个过程中放弃主流增长或前进的趋势。

本文为IPO早知道原创

作者|Stone Jin

据IPO早知道消息,阶跃星辰的创始人、CEO姜大昕博士日前分享了其对当下大模型发展的理解以及对阶跃星辰未来的展望。

整体而言,姜大昕博士认为:

首先,跃目前的状态是坚持基础大模型的研发,追求AGI是阶跃的初心,阶跃对此也不会改变

其次,在当前的竞争格局中,阶跃差异化的特点就是多模态的能力,不仅眼下很多模态在业界的性能是领先的,而且阶跃也在积极地探索前沿的方向,并且也认为这里还存在着非常巨大的机会。

第三,在应用的层面,阶跃也走了一条差异化的路线,携手合作伙伴在智能终端 Agent这个方向上发力,最终形成一个从模型到Agent,从云侧到端侧的生态体系,因为阶跃认为软硬结合是能更好地理解用户的需求,完成用户的任务。

“行业的技术发展还是在非常陡峭的区间,阶跃不想在这个过程中放弃主流增长或前进的趋势,所以我们还是会坚持做基础模型的研发。而从应用的角度来看,我们一直觉得应用和模型是相辅相成的,也就是说模型可以决定应用的上限,应用给模型提供具体的应用场景和数据。”当被问及为何坚持基础大模型研发时,姜大昕博士如是表示。

以下系经「IPO早知道」整理的分享精选:

追求智能的上限仍是当下最重要的一件事

姜大昕博士指出,自2月以来,国外头部几家做基础大模型的公司一直在你追我赶、轮番发布,非常密集地发布了一堆模型。通过这些发布,其实可以感受到一个趋势,就是“追求智能的上限”仍然是当下最重要的一件事。

若拆分来讲,姜大昕博士认为当下基础大模型的发展主要呈现出两个趋势:1、模仿学习到强化学习;2、从多模态融合走向了多模态理解生成一体化。

而之于阶跃星辰而言,在过去的两年时间里,阶跃星辰建立了一个Step系列的通用大模型的矩阵——首先,阶跃星辰把基础模型分成了语言模型和多模态模型。其中,多模态还可以继续细分,按照模态细分有图像、有视频、有语音、有音乐;按照功能来分则又可以分成生成模型和理解模型,比如说图像同样一个模态,我们有图像理解和图像生成,因此多模态是一个非常大的系统。

在国内的大模型公司里面,像我们这样重视模态的全覆盖、并且坚持原生多模理念的公司并不多,但阶跃从一开始就始终认为多模态对通用人工智能非常重要。有一句话我也在很多场合不停的重复,我们认为多模态是实现 AGI 的必经之路。”姜大昕博士表示。

谈及为何保有这一信仰时,姜大昕博士解释称,首先AGI对标的是人类智能,人的智能是多元化的,每个人除了有来自语言的符号智能,还包括视觉智能、空间智能和运动智能等等,这些智能是需要通过视觉和其他模态来进行学习的。所以阶跃认为,在多模态领域任何一个方向出现短板,都会延缓实现AGI的进程。

除了从AGI本身的标准和定义来说,如果从应用的角度来看,不管是做垂直领域的应用还是做C端的应用,多模态都是必不可少的。“我们是需要AI能听、能看、能说,这样它才能更好地理解用户所处的环境,并且和用户进行更为自然的交流。目前的大模型公司有能力去全面自研预训练模型,并构成这样一个模型矩阵的,即使是大公司也不多,更不用说是初创公司了,这是阶跃星辰的一个特色,也是我们的一个优势。”

多模理解生成一体化是一大趋势

姜大昕博士本次还分享了其观察到的一大趋势——多模理解生成一体化,更准确来讲则是视觉领域的理解生成一体化。(“理解生成一体化”的定义是理解和生成是用一个模型来完成

一方面,生成的内容需要理解来控制,为了保证生成的内容有意义、有价值,实际上是需要对它的上下文做一个更好的理解,这就是所谓的生成需要理解来控制;另一方面,理解也需要生成来监督。“在ChatGPT的时候,大家知道它唯一的任务就是predict next token,它predict next token这个过程就是在生成,在整个训练的过程中就是看你 predict next token,predict 的对还是不对,来做监督,它就可以一路的这样,生成完成以后再回到框架做理解,这样一步一步下去,就实现了自然语言的理解比以前的各种模型出现了一个断代式的领先。所以如果我们把predict next token 这样一个任务平移到视觉领域就会问,我们能不能用一个模型去做 predict next frame?这是视觉领域的一个灵魂拷问,到现在为止计算机视觉做了几十年,不幸的是这个问题仍然没有被解决。”

针对理解生成一体化这一点,阶跃星辰前不久刚刚发布的模型Step 1X-Edit就是一个比较好的案例——当对图片进行修改时,对原先图片的忠实度非常高,背后的原因就在于阶跃星辰采用了一个理解生成一体化的模型。

这里不妨补充一点,阶跃星辰日前发布并开源的图像编辑大模型Step1X-Edit性能达到开源 SOTA——该模型总参数量为19B (7B MLLM + 12B DiT),具备语义精准解析、身份一致性保持、高精度区域级控制三项关键能力;支持11类高频图像编辑任务类型,如文字替换、风格迁移、材质变换、人物修图等。一句话总结的话,Step1X-Edit,不只能“改图”,更能“听得懂、改得准、保得住”。

“当然这个还是比较初级的阶段,我们内部还在开发一个更高级的版本,未来几个月也会把更先进的技术发布出来。”姜大昕博士表示。

值得注意的是,姜大昕博士强调,理解生成一体化的路线阶跃星辰成立之初就设定好

将智能终端Agent作为自己的重要方向之一

事实上,除了在基础模型端发力外,阶跃星辰一直秉承“超级模型加上超级应用”双轮驱动的策略

在姜大昕博士看来,Agent爆发需要两个必要的条件,一是多模态能力,另外一个是慢思考的能力,这两个能力恰好在2024年的时候取得了突破性的进展。

截至目前,阶跃星辰基于自身的模型矩阵,和合作伙伴一起打造了垂类的Agent和智能终端的Agent。其中,除了金融财经、内容创作、新消费等过去一段时间阶跃星辰已有一定积累的领域外,阶跃星辰今年在智能终端Agent方面着重发力。

姜大昕博士指出,之所以选择智能终端Agent作为自己的方向,是因为阶跃认为Agent要能更好地帮助人类去完成任务,需要去理解用户所处的环境和任务的上下文。智能终端是人的感知和体验的延伸,所以在你发起任务的时候它已经知道任务的上下文了;同时,很多的智能终端或者是终端设备,就是帮你完成任务。

进一步来讲,阶跃星辰当前在智能终端上选取了几个重要的终端,一个是手机、一个是车,还有一个是机器人,并已和OPPO、吉利、智元机器人等各个方向的头部企业展开了深度的合作。

谈及C端产品的商业化问题时,姜大昕博士表示,DeepSeek带来的一个经验就是,投流的逻辑不成立

“要重新思考一下AI时代的产品的流量增长是不是真的像传统互联网那样靠投流上去的,DeepSeek出来以后给大家一个重新看待这个问题的窗口。不光是 DeepSeek ,像《哪吒2》、《黑神话悟空》等其实都有一些共性,不靠铺天盖地地投流积累用户。“姜大昕博士说道,”我们的智能终端其实是ToC的,虽然我们和头部企业合作,但阶跃和这些企业合作的产品最终服务C端,作为助手类也好、内容类也好还是有非常大的机会。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
华润燃气控股有限公司原副总裁李雪松接受审查调查

华润燃气控股有限公司原副总裁李雪松接受审查调查

界面新闻
2026-05-07 10:31:29
现在才明白,中国出台的阻断令,会让这些银行惶恐不安!

现在才明白,中国出台的阻断令,会让这些银行惶恐不安!

达文西看世界
2026-05-07 16:44:24
三星宣布停止在中国市场销售所有家电产品

三星宣布停止在中国市场销售所有家电产品

财联社
2026-05-06 19:32:22
67岁毕福剑江苏农村走穴!为70岁老人贺寿显沧桑,曝出场费20多万

67岁毕福剑江苏农村走穴!为70岁老人贺寿显沧桑,曝出场费20多万

安海客
2026-05-06 16:02:31
鲁比奥警告中国,中美爆发两波争端,114国拒绝签约

鲁比奥警告中国,中美爆发两波争端,114国拒绝签约

兴史兴谈
2026-05-07 02:49:01
连续三天嫖娼一次嫖俩,花800元毁掉一手女神好牌,他图什么?

连续三天嫖娼一次嫖俩,花800元毁掉一手女神好牌,他图什么?

街上的行人很刺眼
2026-04-25 10:55:49
空腹抽血,喝水算不算破坏?很多人意外!检验科医生权威解答

空腹抽血,喝水算不算破坏?很多人意外!检验科医生权威解答

环球网资讯
2026-05-06 13:46:09
1.3 亿欧 + 4 大新援!老佛爷为穆里尼奥回归铺路,皇马要搞大的

1.3 亿欧 + 4 大新援!老佛爷为穆里尼奥回归铺路,皇马要搞大的

奶盖熊本熊
2026-05-08 00:36:05
“有这种妈,抑郁症就好不了!”一段母子俩出游视频,令人窒息

“有这种妈,抑郁症就好不了!”一段母子俩出游视频,令人窒息

妍妍教育日记
2026-05-07 10:30:13
谢娜演唱会这一夜,半个娱乐圈捧场,网友直呼票价不值,吃相难看

谢娜演唱会这一夜,半个娱乐圈捧场,网友直呼票价不值,吃相难看

青梅侃史啊
2026-05-07 07:28:32
男人搞定50岁女人最好方法,喂饱了她两个需求,她就会主动依你

男人搞定50岁女人最好方法,喂饱了她两个需求,她就会主动依你

心理观察局
2026-05-04 08:20:08
41岁女子有性瘾,每天要求37岁男友睡她,一年后男友受不了杀了她

41岁女子有性瘾,每天要求37岁男友睡她,一年后男友受不了杀了她

胖胖侃咖
2025-05-10 08:00:08
苏州中学附属三亚学校项目发生事故,海南住建厅启动督办程序

苏州中学附属三亚学校项目发生事故,海南住建厅启动督办程序

澎湃新闻
2026-05-07 17:38:26
泰康人寿回应代理人被青岛市公安机关立案侦查:全力配合,同步启动内部自查和客户排查

泰康人寿回应代理人被青岛市公安机关立案侦查:全力配合,同步启动内部自查和客户排查

澎湃新闻
2026-05-07 22:18:26
四川一男子买彩票中了560万,竟在上班途中被抢!谁料,男子连彩票复印件和照片都没留!

四川一男子买彩票中了560万,竟在上班途中被抢!谁料,男子连彩票复印件和照片都没留!

谭老师地理大课堂
2026-05-08 00:07:04
战胜森林挺进欧联杯决赛,维拉时隔44年再度闯进欧战决赛

战胜森林挺进欧联杯决赛,维拉时隔44年再度闯进欧战决赛

懂球帝
2026-05-08 05:15:11
台官员曝赖清德成功返台内幕,大陆出手阻止未果,背后有难言之隐

台官员曝赖清德成功返台内幕,大陆出手阻止未果,背后有难言之隐

共工之锚
2026-05-07 00:04:56
马龙伦敦世乒观赛从VIP沙发挪到看台,闫安曝真相:被外协投诉了

马龙伦敦世乒观赛从VIP沙发挪到看台,闫安曝真相:被外协投诉了

观鱼听雨
2026-05-07 18:43:11
1200万预赔款已到账!浏阳烟花厂爆炸遇难者,人均赔多少?

1200万预赔款已到账!浏阳烟花厂爆炸遇难者,人均赔多少?

陈博世财经
2026-05-07 14:13:52
男大学生被狗咬了后意外离世,母亲哭诉生前已打5针疫苗

男大学生被狗咬了后意外离世,母亲哭诉生前已打5针疫苗

纸鸢奇谭
2026-02-10 11:13:06
2026-05-08 06:12:49
IPO早知道 incentive-icons
IPO早知道
IPO情报专家。
6893文章数 2412关注度
往期回顾 全部

财经要闻

人均年薪406万,这家ST公司惊呆市场!

头条要闻

伊朗武装部队:美军违反停火空袭伊朗 已反击

头条要闻

伊朗武装部队:美军违反停火空袭伊朗 已反击

体育要闻

巴黎再进欧冠决赛,最尴尬的情况还是发生了

娱乐要闻

Lisa主持!宁艺卓观看脱衣秀风波升级

科技要闻

月之暗面完成20亿美元融资,估值突破200亿

汽车要闻

雷克萨斯全新纯电三排SUV 全新TZ全球首发

态度原创

房产
亲子
旅游
公开课
军事航空

房产要闻

负债23亿,抵押482亩地!海南这家巨头,惨遭拍卖!

亲子要闻

只祝她“母亲节快乐”是不够的

旅游要闻

在上图文字奇旅中寻找她的笔迹(边玩边赢奖,互动体验开启预约!)

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

特朗普:美伊"很可能"达成协议

无障碍浏览 进入关怀版