网易首页 > 网易号 > 正文 申请入驻

对话阶跃星辰姜大昕:模型突破先于商业化,下一步关键是视觉领域Transformer级架构

0
分享至

蓝鲸新闻5月9日讯(记者 武静静)大模型行业正经历前所未有地加速演进,昨日的技术高地,转瞬可能成为明日的过时概念。GPT-4 的生命周期之短,映照出技术的瞬息万变,这款曾经的标杆产品生命周期仅存 467 天,恰似大模型赛道的残酷缩影,技术迭代速度和战略窗口期被空前压缩。

从全员预训练,到All in推理,从闭源到开源,在短短的一年之内,大模型焦点快速切换。当下的2025,关键词是推理和开源。下一个是什么,谁也难以预测。

在这空前变化中,身处其中的大模型公司的感知和思考是什么。5月8日阶跃星辰在北京举行媒体沟通会,阶跃星辰创始人、CEO姜大昕接受了蓝鲸新闻等多家媒体采访,聊起了他们对大模型时代,如何在变化中保持定力的思考,以及对下一步技术发展的判断。

在多模态领域出现任何短板,都会延缓实现 AGI 的进程

从2023年4月成立到现在,这家成立仅仅两年的大模型公司,已经累计发布了22款自研基座模型,覆盖文字、语音、图像、视频、音乐、推理等全系列,在阶跃星辰 Step 系列基座模型矩阵中,多模态模型的占比已经达 7 成,所以在业内被称为"多模态卷王"。

为什么会押注多模态?姜大昕的回答是:"多模态是实现 AGI 的必经之路。在多模态领域出现任何短板,都会延缓实现 AGI 的进程。"

他提到,AGI 对标的是人类智能:人类的智能本身是多元化的,除了语言的符号智能,还包括视觉智能、空间智能和运动智能等等。这些智能的习得需要通过视觉和其他模态来进行学习。因此,要实现对标人类的 AGI,模型也必须具备处理多种模态信息的能力。

此外,在应用层面来看,无论是垂直领域的应用还是 C 端应用,多模态都是必不可少。因为想让 AI 更好地理解用户所处的环境并进行更自然的交流,它需要具备"能听、能看、能说"的能力。"多模态可以让智能体充分地理解和感知这个世界。"姜大昕说。

在创立之初,阶跃星辰就规划了通往 AGI 的路线图,包括三个阶段:模拟世界—探索世界—归纳世界。在姜大昕看来,当下,整个行业的技术发展仍然处于非常陡峭的区间。

所以,当下,公司依旧会坚持基础大模型的研发,追求智能的上限:"行业变化太快,前两年很厉害的 GPT-4都快下架了,阶跃不想在这个过程中放弃主流增长或前进的趋势,因此会坚持做基础模型的研发。追求 AGI是我们的初心。"

视觉理解生成一体化是关键问题

实现AGI,下一步大模型的主要发展趋势是什么?

姜大昕认为,未来的模型发展将沿着增强推理能力和实现多模理解生成一体化这两个主要方向前进。

首先,是在预训练的基础模型上加入强化学习,激发推理的长思维链能力。这种强大的推理能力与多模态能力的结合,被认为是 Agent 爆发的两个必要条件之一。

此外,除了语言模型推理之外,另一个能力是如何把推理引入到多模态领域。因为 单纯的视觉理解是有限的,引入推理后,模型能够结合其感知能力和内部知识,更深入地理解复杂的场景和情况。

第二个核心趋势就是,视觉领域的理解生成一体化。这也是当下多模态领域的核心问题。"理解生成一体化是计算机视觉需要突破的一个堡垒,这对于预测下一帧、利用海量视频进行预训练、构建世界模型、实现具身智能和机器人泛化至关重要。"

姜大昕进一步解释:"理解生成一体化的核心定义是理解和生成由同一个模型来完成,这在文本领域(如 ChatGPT)已经实现,但在视觉领域,目前的模型在多模态领域理解和生成往往由不同的模型完成,理解生成一体化是核心问题。"

"生成需要理解来控制理解需要生成来监督",姜大昕强调,生成的内容需要理解来控制,以确保生成内容有意义和有价值,理解需要生成来监督,只有能够生成,才能知道是否真正理解。如果能够攻克这一难题,便能利用海量的视频数据进行预训练,并有望将计算机视觉的各项任务统一到一个模型之中。

尽管意义重大,视觉领域的理解生成一体化依然面临着模态复杂度高的严峻挑战,由于高维连续空间难以高效表达,目前尚未找到类似 Transformer 在文本领域那样具有突破性的、可扩展的架构。近期出现的模型,例如 GPT-4o 的图像编辑能力以及阶跃星辰的 Step 1X-Edit,被认为是理解生成一体化的初步尝试,它们需要在理解图像和指令的基础上进行内容生成,并保持对原始图像的忠实度。

据姜大昕透露,阶跃星辰正在内部探索多条技术路线,以期找到可扩展的理解生成一体化架构,实现视觉模态的"Transformer 时刻"。" 在技术路线未收敛之前,并行探索多种可能的解决方案是必要的。"

"突破可能在瞬间发生,但难以预测何时到来。"姜大昕说。

双轮驱动:超级模型+超级应用

除了技术和方向,落地与应用是另一关键议题。

阶跃星辰早在今年2月的首届生态开放日上便明确,下一步将战略聚焦智能终端 Agent 方向,并重点布局汽车、手机、具身智能、IoT 等核心应用场景。

姜大昕提到,Agent 爆发需要两个必要的条件,一个是多模态的能力,另外一个是慢思考的能力,这两个能力恰好在 2024 年的时候取得了突破性的进展。

选择智能终端方向,是因其作为用户感知与体验的延伸,能够采集环境信息,助力 Agent 理解用户所处环境及任务上下文。此外,终端亦能执行任务,未来的 Agent 有望通过自然对话简化复杂设备操作。目前,阶跃星辰正积极与手机、汽车、机器人等终端领域的头部企业合作,探索 Agent 的实际落地。

对于 AI 应用的未来走向,姜大昕向蓝鲸新闻指出,仅做应用的公司可能面临通用模型能力提升后被降维打击的风险。在关键的商业化方向上, 阶跃星辰采取的是"超级模型加上超级应用"的双轮驱动策略。

姜大昕认为,模型突破先于商业化,"通常是模型能力的突破先发生,然后才带来商业化的成熟应用。例如,GPT-3.5 的出现催生了 ChatGPT,多模融合和推理模型的进步带来了 Agent,而多模理解生成一体化(尤其是可扩展的一体化)的实现,可能会进一步解锁人形机器人泛化和构建世界模型等更大的应用和价值。"

阶跃专注于基础模型能力,但也重视应用,因为通用模型的能力需要通过应用来牵引。例如,玩具场景中孩子说话停顿的问题在通用模型中不会出现,但解决这种问题可以促进模型能力的提升。

"双轮驱动策略使得阶跃星辰能够在坚持基础模型研发,追求AGI的同时,通过与行业伙伴合作,在实际应用场景中探索和落地Agent能力,形成从模型到Agent,从云侧到端侧的生态体系,实现软硬件结合以更好地理解用户需求和完成任务。"

姜大昕展望未来:"所有终端都可能 Agent 化,将原本冰冷的设备转变为用户的智能伙伴。"

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
伯纳乌秩序已然失控,穆里尼奥二进宫将敲定大批球员去留

伯纳乌秩序已然失控,穆里尼奥二进宫将敲定大批球员去留

林子说事
2026-05-09 21:14:40
《教父》柯里昂临终前的顿悟:男人可以嚣张,可以蛮横,可以得罪权贵,唯独这两类人,碰了就是给自己种下祸端

《教父》柯里昂临终前的顿悟:男人可以嚣张,可以蛮横,可以得罪权贵,唯独这两类人,碰了就是给自己种下祸端

心理观察局
2026-05-08 09:32:04
宝宝落地的第一抱交给谁?老祖宗的讲究:这 3 种人护佑孩子顺遂

宝宝落地的第一抱交给谁?老祖宗的讲究:这 3 种人护佑孩子顺遂

纸鸢奇谭
2026-04-09 14:49:11
卫星图像下骇人一幕:伊朗哈尔克岛附近海域浮现大片油污

卫星图像下骇人一幕:伊朗哈尔克岛附近海域浮现大片油污

财联社
2026-05-09 09:30:22
不戴套不吃药,新型女性避孕环面世,自己上环、取环,你愿用吗?

不戴套不吃药,新型女性避孕环面世,自己上环、取环,你愿用吗?

大果小果妈妈
2026-05-09 13:25:08
皇家第2场花园派对,凯特威廉为主导,王妃干瘪如衣架子让人担忧

皇家第2场花园派对,凯特威廉为主导,王妃干瘪如衣架子让人担忧

聪明的橙子hj
2026-05-09 10:35:09
刚把专车运到北京,美国总统特朗普,就迎来2个坏消息!

刚把专车运到北京,美国总统特朗普,就迎来2个坏消息!

探源历史
2026-05-10 01:09:05
大意了!CBA联盟再开天价罚单,专家建议:面对不满判罚还得保持冷静

大意了!CBA联盟再开天价罚单,专家建议:面对不满判罚还得保持冷静

衔春信
2026-05-10 00:11:00
7年败光2亿!邹市明冉莹颖共同发文:二人最终还是迈出了这一步!

7年败光2亿!邹市明冉莹颖共同发文:二人最终还是迈出了这一步!

拳击时空
2026-04-16 06:04:48
买宝瑶撕掉星二代标签:9年自救,谁还认她是孙楠的女儿?

买宝瑶撕掉星二代标签:9年自救,谁还认她是孙楠的女儿?

一盅情怀
2026-05-08 11:00:51
风向突变!以德为首西方国家齐改口:中国已在“电”关键领域崛起

风向突变!以德为首西方国家齐改口:中国已在“电”关键领域崛起

大卫聊科技
2026-04-08 13:04:13
哈里悔青肠子了?看威廉一家出游,阿奇莉莉贝特却连脸都不能露!

哈里悔青肠子了?看威廉一家出游,阿奇莉莉贝特却连脸都不能露!

小椰的奶奶
2026-05-10 03:20:51
莎莎打完比赛冻得直哆嗦,一扭头看见大迪羽绒服,二话不说就穿走

莎莎打完比赛冻得直哆嗦,一扭头看见大迪羽绒服,二话不说就穿走

小娱乐悠悠
2026-05-04 09:39:48
爆冷出局!ATP1000罗马大师赛第2轮:德约科维奇1-2被小将逆转

爆冷出局!ATP1000罗马大师赛第2轮:德约科维奇1-2被小将逆转

林子说事
2026-05-09 21:24:43
再见约基奇!掘金交易名单曝光,球队老板公开表态

再见约基奇!掘金交易名单曝光,球队老板公开表态

晚雾空青
2026-05-09 17:03:59
卡里克:没必要过度分析这场平局;连续进球纪录中断很正常

卡里克:没必要过度分析这场平局;连续进球纪录中断很正常

懂球帝
2026-05-10 02:38:12
接班阿利松!利物浦瞄准“世界第一门将”,开启5000万欧中场谈判

接班阿利松!利物浦瞄准“世界第一门将”,开启5000万欧中场谈判

夜白侃球
2026-05-09 09:03:03
心理学上有个词叫:螃蟹效应。永远要记住,和周围人搞好关系的秘诀就是,不分享喜悦、不炫耀成功、不说三道四、不假装聪明

心理学上有个词叫:螃蟹效应。永远要记住,和周围人搞好关系的秘诀就是,不分享喜悦、不炫耀成功、不说三道四、不假装聪明

德鲁克博雅管理
2026-04-28 17:04:30
大厂员工分享:今年又提前还贷110万,剩下的月供不足千元了!

大厂员工分享:今年又提前还贷110万,剩下的月供不足千元了!

黯泉
2026-05-09 15:28:13
2015年那次如果没刹住车,今天的中国制造会是啥样?

2015年那次如果没刹住车,今天的中国制造会是啥样?

趣味萌宠的日常
2026-05-08 12:31:25
2026-05-10 04:20:49
蓝鲸新闻 incentive-icons
蓝鲸新闻
财经信息服务平台
132420文章数 193871关注度
往期回顾 全部

财经要闻

多地号召,公职人员带头缴纳物业费

头条要闻

演员文章面馆大火后又开酒吧 多位明星到场母亲也现身

头条要闻

演员文章面馆大火后又开酒吧 多位明星到场母亲也现身

体育要闻

成立128年后,这支升班马首夺顶级联赛冠军

娱乐要闻

50岁赵薇脸颊凹陷沧桑得认不出!

科技要闻

美国政府强力下场 苹果英特尔达成代工协议

汽车要闻

轴距加长/智驾拉满 阿维塔07L定位大五座SUV

态度原创

家居
手机
房产
公开课
军事航空

家居要闻

菁英人居 全能豪宅

手机要闻

华为Mate 90首发!鸿蒙7定档6月:和iOS安卓三分天下

房产要闻

低价甩卖!海口这个地标商业,无人接盘!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美伊突然再次交火 伊朗外长:战争准备程度是1000%

无障碍浏览 进入关怀版