网易首页 > 网易号 > 正文 申请入驻

Skywork技术论坛一手分享:Agent与多模态的落地真相

0
分享至

拐点未现,应用仍在路上。

整理|田思奇

编辑|栗子

在人工智能进入高速迭代的第三年,行业的注意力已从单一模型的参数和能力,转向能否真正落地。Agent的落地拐点、多模态的应用前景,和系统架构的扩展性,成为这一波技术讨论的三条主线。

8月19日,在昆仑万维发起的第一期Skywork全球技术论坛讨论会中,来自南洋理工大学、清华大学、上海交通大学、香港中文大学等高校,以及苹果、谷歌、Meta、微软、英伟达、硅基流动等公司的十余位国内外嘉宾,围绕主题「探索大模型边界:从强化学习到多模态推理,以及Agent的下一站」,展开长达数小时的深入交流。

ROI是否足以支撑Agent商业化,长上下文如何在延迟与成本间取得平衡,多模态的研究路径是否已触及天花板?对于这些核心问题,与会者提出了许多坦率的判断。

行业当下的真实处境依然是:热度仍在,但“如何被真正用起来”才是关键。

以下为本次技术讨论会的核心观点,经过编辑整理:

1.短期内,C端Agent更可能选择出海

Agent 商业化拐点是否已经到来?

Agent在2025年被推到热潮中心,被寄望成为下一代人机交互的入口。但现实依然是:看收入就行。Coding已经出现了拐点,而Agent还没有。技术热度尚未在商业层面兑现。

尤其在中国市场,长期被免费教育的用户对订阅付费意愿极低,这让Agent的商业转化更加艰难。

为了衡量这种矛盾,有人提出了“Agentic ROI”的概念——便利与交互成本的比值。只有当这个比例足够高,用户才会愿意付费。但在国内,大厂几乎免费的竞品让ROI接近为零,进一步压低了商业转化。短期内,C端Agent更可能选择出海,到订阅习惯更成熟的市场寻找机会。

但放眼未来一两年,国内随着成本下降、应用数量增加,ROI有望逐步提高,商业化拐点也才可能真正到来。

2.如果环境单一,Agent的能力很快触顶

Agent的壁垒在哪里?

在竞争激烈的市场环境里,通用Agent难以形成优势,真正能走深的是行业知识和垂直场景。当前,编程与数学是 token消耗最大的应用方向,因为数据充足、模式清晰,容易形成可复制的能力。但在其他领域,数据不足让产品很难走向深入。对于中国团队而言,只有找到明确的垂直场景,才能在出海市场站稳。

同时,过去推动模型进步的方式是“堆数据”和加长序列,在纯文本时代行之有效。但进入Agent阶段后,这种规模扩展已不够。环境复杂度才是关键:如果环境单一,Agent的能力很快触顶。研究者普遍关注的,是如何创造并搭建多样化的环境,让模型能在更复杂的情境中学习与交互,否则再强的算力也无法支撑能力提升。

3.任务与奖励的设计决定了Agent能否学到有效策略

多轮训练需要什么样的任务与奖励?RL是否能建立通用标准?

Agent训练的难点往往在于任务本身没有定义好。多轮训练需要难度递进的任务,同时需要低噪声的奖励,否则模型难以学到可复制的策略。动作空间的设计同样关键:自由度越高,潜力越大,但训练难度也会急剧增加。

业界正在探索异步采样的训练架构,以并行方式加快进程,但也带来了算法一致性的新问题。随着训练轮数增加,上下文管理也逐渐成为瓶颈。而更根本的困境在于,语言模型之所以成功,是因为找到了可扩展的训练机制;而在强化学习中,尚没有类似的“通用奖励标准”。在多智能体和复杂场景下,什么才算“做得好”,至今没有统一答案。缺乏稳定反馈,就无法形成可复制的能力。

4.多模态强化学习的生态突破

多模态如何增强Agent训练?奖励机制如何迁移到生成任务?

多模态被认为是潜在的突破口,但现有模型并不适合作为Agent前端,在复杂界面下的理解力不足。如果在预训练阶段引入Agent场景,或采用更激进的混合训练方式,有可能培养更强的长程理解力。但前提是Agent必须具备反思和回退的能力,否则随着工具数量增加,错误率会被放大。

生态短板也不容忽视。目前缺乏开源的原生多模态模型,大公司虽然掌握了强大的视频和多模态能力,但并不开放,这让社区几乎没有机会在多模态模型上做后训练,只能依赖有限的闭源接口。这是一个硬伤。

另一方面,对“环境”的重新理解也在发生。传统RL依赖成百上千个环境保证泛化,而在大模型时代,文本框本身就是一个环境,叠加指令即可形成多任务,关键不在于环境数量,而在于数据质量。

与此同时,研究者正尝试通过奖励机制来衡量视频与图像的生成效果,把人类偏好直接引入训练。GRPO虽在推理上很有效,但生成任务主流方法是基于流匹配的确定性采样,缺乏随机性,难以直接迁移。后来出现的Flow-GRPO等改进,把奖励信号与训练方式统一起来,改善了生成任务中的动作连贯性和一致性。这种方法足够简单,可以扩展到视频等更多生成任务,让过去“不收敛”的探索出现了可操作路径。

5.娱乐场景或许更先爆发

为什么要默认Agent的突破口一定是生产力?

判断拐点的方式未必只有收入曲线,使用情况同样能说明问题。如果用户一轮又一轮追问,而模型能够不断生成越来越多的内容,这意味着系统已经进入正向循环。

有观点认为:“比如让我每月花二十块订个Agent,我会犹豫。但让我买个玩具、看看视频,我花钱更开心。” 从用户消费心理来看,娱乐反而更可能率先迎来爆发。虚拟伴侣、游戏NPC、视频创作助手等场景在海外已经跑出用户基础,未来或许比效率工具更早打开市场。

长远来看,Agent的能力增长可能依赖于一种“双轮过程”:基础模型先预训练,再让Agent在具体任务里积累经验数据,这些数据反过来提升模型,再进入更复杂的新任务,如此往复。用户一旦感受到Agent能力增强,就会提出更难的任务,这时必须依靠Agent framework去扩展范围,再把经验积累回馈给模型。

这种循环一旦建立,能力会快速迭代。未来一年内可能出现首批Agent基础模型,初期可能很小,但会在端侧设备和专业任务场景率先落地。长远来看,未来千亿级别模型的训练数据,很可能大部分都来自Agent自身的经验。

当前的使用数据揭示了另一种信号:在OpenRouter的统计中,Coding调用token占比高达87%,Roleplay占8%。只有当这种使用高度集中的情况逐渐变得均匀,Agent才算真正进入各行各业,那才是真正的拐点。

6.多模态正在拓展自然交互方式,任务设计成关键变量

如何找到合适的规模化任务?

最近多模态方向的开源工作包括Skywork出品的R1V多模态推理系列,以及有“开源Genie3”之称的Matrix-Game 2.0系列,但是范式的可持续性已经显露出问题。强化学习与扩大规模仍能奏效,但前提是不断找到新的任务与数据。

现实困境在于:合适的任务越来越稀缺。机器人也被视为潜在方向,却因环境规模化难度过高而受阻。即便是OpenAI也并没有把重心放在机器人或复杂场景,而是选择继续打磨策略与模型本身。在现有的商业框架下,多模态理解、生成与对话系统仍然可以运作,但长期来看,这条路能走多远,仍是一道开放问题。

应用层面,多模态输入能让交互更自然。用户拍一张照片就能生成PPT,用图像替代复杂的文字描述——这些都是比键盘更高效的表达方式。他发现国内一些金融公司在应用的落地速度上甚至领先美国,说明多模态并非虚无缥缈,而是正在改变办公和业务流程。

但也有观点认为,端侧模型确实能让日常操作快上几秒钟,但差异远未达到革命性。他举了一个例子:即便系统能帮用户自动完成外卖下单,从点餐到支付全程无缝衔接,但和用户自己点单相比,本质差别并不大。真正的突破必须在交互体验中产生质变,而不是仅仅“更快”。

3D和AR/VR领域的瓶颈在于用户规模,连微软的专业设备都卖不动。相比之下,视频应用更接近大规模落地。这种分化的现状说明:多模态的延伸正在遭遇任务稀缺与应用分化的双重挑战。

7.世界模型需要找到新的数据采集方式

游戏与虚拟世界能否带来突破?

世界模型是多模态讨论的焦点。Genie3带来的震撼仅次于Sora,它展示了开放世界的潜力。目标是从《我的世界》逐步逼近GTA级别的复杂度,核心在于物理一致性,而这正是世界模型的关键。

基于此,新的尝试正在出现。Matrix-Game2.0被称为“开源Genie3”,它不仅能生成开放世界,还能支持多人协作。未来的世界模型不能停留在单人键盘操作,而要支持多人协作:同一虚拟世界里,每个人共享场景,但从不同视角互动。他设想用户不仅通过键盘控制,还能用即时输入修改环境,比如加入新的元素或特效,再继续探索。基于视频生成的世界模型与视频编辑在他看来本就是一体,只是交互方式不同。

然而,进展背后也存在清晰的局限。模型的一致性和多样性虽在快速进步,但交互动作空间依旧过窄,只能支持简单动作。更关键的是,真实世界数据依然稀缺,反向标注视频误差大。如果未来能普及长续航的采集设备,让普通人日常携带并录制场景,也许才能提供有价值的训练数据辅助世界模型。

8.生成与理解融合是长期方向,短期内拼接更可行

生成是否能反哺理解?统一模型是必然还是工程折中?

生成与理解是否应该统一,是多模态研究中最具争议的问题。回顾GPT-4的实践可以看出,图像生成与理解在后训练阶段其实是两套流程,并非真正统一。虽然在预训练阶段可能存在互相促进,但缺乏明确证据。理解可以帮助生成,但还没有看到生成显著帮助理解。

同时,生成追求极细节,理解则是抽象语义,硬统一可能适得其反。多数公司选择保留两套模型,各自最优。这类“统一模型”,往往只是工程折中而已。

另一种声音坚持统一的价值。在实际服务中,用户咨询足球鞋时,模型不仅文字解释,还能自动生成图像,展示鞋钉与场地的对应关系。这种“理解+生成”的一体化体验,才真正体现了多模态的意义。

但在工程层面,拼接方案短期更稳健。生成需要低层次特征,理解偏高层抽象,两者难以兼容,训练也更难收敛。相比之下,把理解模型的推理能力注入生成流程,反而能显著提升质量,减少幻觉。因此他判断,短期和中期拼接方案会是主流。

一体化模型Skywork UniPic系列作为拼接派代表工作之一,让“理解—生成—编辑”在统一表示里闭环;同时又与奖励模型的耦合,实现了前沿的生成和理解效果,也兼顾落地稳定性。

9.音频有望成为主流人机交互入口

语音交互的挑战是什么?数据困境如何突破?

在视觉之外,音频被普遍认为是下一个潜在突破口。音频生成正在经历结构性变化:从低采样语音逐步迈向高保真音乐,从单声道过渡到沉浸式环绕声,再到与视频模态的紧密结合,这些演进都意味着新的交互可能性。例如,当音频与视频一同输入时,模型在理解层面的表现往往会更准确。

但与视觉相比,音频领域的问题更加棘手——风格和情绪标签的主观性,使得标注难度极高,不同人往往无法达成一致。这种数据困境,让音频模态的潜力显得既诱人又难以把握。

展望未来,分歧依然存在。有人判断多模态将长期赋能智能硬件与机器人,渗透到更多终端设备;也有人主张借鉴人脑的模块化架构,让感知、记忆、推理分区运作,再通过协调实现低功耗与可解释性;另一条路线则是继续追求大一统模型,用跨模态超大规模数据和新架构寻求突破。与此同时,也有人强调工程可行性,认为拼接与大一统会长期并行发展。

在交互层面,语音被寄予厚望。相比文字输入,语音更自然直观,也能承载情绪与语气。用户之间或者用户与模型之间,可以仅通过自然语音共建世界模型,边说边生成,动态地改造和拓展虚拟世界。这种方式比打字更高效直观,也更符合人类的交流习惯。

不过语音交互仍面临一些挑战:口头指令往往含糊,复杂操作可能需要与文字或图形界面结合;而“边说边生成”对模型的实时响应也提出了算力和延迟方面的更高要求。他相信语音将在未来成为多模态协作的重要入口。

10.长上下文是最大的瓶颈,也是最核心的价值

长上下文如何改变Agent的应用场景?

当视角转回系统层面,问题就更加直接:长上下文带来的延迟与显存压力。从Linear到Sparse,从MoE到非对称稀疏,工程层的博弈决定了这些探索能否真正落地。

随着模型输入长度从2023年的8k、32k,扩展到2024年GPT-4-turbo的128k、Claude 3的200k,以及Gemini 1.5 Pro的1M token,上下文的急剧增长推高了计算成本。推理显存占用不仅线性增加,推理所需计算量甚至呈超线性上升,一次对话的成本可能从几毛钱涨到数元甚至数十元。企业被迫通过缩短输入或拆分任务来规避,但当长上下文成为刚需,这种矛盾愈发尖锐。

长上下文已成为Agent应用的最大瓶颈——很多功能要么慢,要么价格高,根源都在上下文过长。即便做到百万级上下文,检索增强机制会长期存在,本质上类似人类的长期记忆调用。“人的工作记忆很短,很多信息都靠长期记忆检索,AI也是一样,即便做到百万级上下文,检索仍然需要,只是更高效。

11.混合注意力架构正在成为趋势,但算法选择与工程代价尚未收敛

Linear与Sparse的分歧能否统一?

在长上下文压力下,业界逐渐分化为Linear与Sparse(如DeepSeek团队提出的NSA)两大派系。但现实是,两者并非非此即彼,而是常常需要混合使用。MiniMax的模型就交错结合了Linear Attention和Global Attention,甚至可以尝试把Global部分换成NSA,看是否能互补。然而,这类实验几乎没有团队真正做过,因为资源消耗太大。Sparse尚未在大模型中展现出决定性优势,Linear也存在信息丢失问题,单走一条路现在都不够好。

具体到方案,Linear Attention的问题在于它对所有位置一视同仁,和语义层级特征不符,高层语义理应更粗粒度。而NSA至少能做到先粗选再细推,符合语义处理规律。但NSA的工程复杂度很高,目前体验也不理想。另一种方向是Log-Linear状态空间,它能让状态随时间以对数方式扩展,更像人脑的记忆曲线:“信息逐渐累积,但不是均匀增加。”未来也可能出现更直观的方案,比如模拟记忆曲线或KV压缩。

这些探索说明,混合注意力机制正走向主流,但在算法选择与工程代价之间仍未收敛。

12.稀疏化与MoE展现潜力,硬件支持将决定规模化未来

MoE如何避免显存失衡?非对称稀疏能否更高效?

长上下文引发的是“记忆”的争论,而MoE直指“激活”。MoE的细节差异常常决定效果。共享专家机制并非必要,过细的路由还可能导致GPU显存分配失衡。一种改进思路是让非关键信息token限制专家路由,把算力集中在关键token上。另一种设想是“非对称稀疏”:不同token激活不同规模的专家,简单任务提前中止,复杂任务调用更多层。这可能更高效,但目前尚无成熟实践。

稀疏化的潜在收益很大,但优化难度同样增加。细粒度稀疏潜力巨大,却难以工程化;结构化稀疏是当前现实的折中方案。GPU的特性决定了这一限制:人脑是全稀疏的,而GPU并不擅长非结构化稀疏。MoE在宏观上稀疏、微观上稠密,恰好契合GPU的block结构,因此能落地。如果未来硬件能更好支持稀疏计算,微观稀疏化也许才可能真正规模化。

这也解释了为什么大模型发展不能仅依赖参数和算法叠加,而需要结构稀疏化、训练异步化和系统异构化的协同演进。GPT-5迭代速度放缓,正是实验资源逼近极限的直接反映。

这类架构问题往往在营销叙事中不被强调,但它们决定了大模型能否真正走出实验室,商业与技术如何对齐,研究与应用如何衔接,这才是今天最现实的矛盾。

从Agent到多模态,再到系统架构,Skywork技术研讨会嘉宾很难较短的时间内提出最终的解决方案,但核心问题均已浮出水面。对昆仑万维而言,举办这样的研讨,将有力推动产业界与学术界在关键议题上达成共识。接下来,Skywork技术论坛讨论会研讨会还将持续展开,而这些未竟的对话,本身就是值得关注的方向。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
长沙被杆砸伤的大妈发声:退休公务员,不会讹人,车主坚决不赔偿

长沙被杆砸伤的大妈发声:退休公务员,不会讹人,车主坚决不赔偿

观察鉴娱
2026-04-19 16:10:54
人民日报联合工信部紧急预警:全体iPhone用户,请立刻升级系统!

人民日报联合工信部紧急预警:全体iPhone用户,请立刻升级系统!

小柱解说游戏
2026-04-19 20:52:59
5月1日起物业行业彻底大变天!新规落地,业主终于不用再忍气吞声

5月1日起物业行业彻底大变天!新规落地,业主终于不用再忍气吞声

另子维爱读史
2026-04-19 19:37:43
连关2店,中国内地已不到10家!网友:曾花过40万,现在真觉得浪费钱

连关2店,中国内地已不到10家!网友:曾花过40万,现在真觉得浪费钱

南方都市报
2026-04-20 07:37:25
被苹果、华为干倒的诺基亚,又杀回来了!

被苹果、华为干倒的诺基亚,又杀回来了!

大佬灼见
2026-04-19 10:28:53
任正非:我创业40载,面试了3600人,选拔人才也无非是看这3点

任正非:我创业40载,面试了3600人,选拔人才也无非是看这3点

跨界标杆研习社
2026-04-18 22:01:13
英国小妹歧视中国人后续:身份曝光社死,被告学校,下场大快人心

英国小妹歧视中国人后续:身份曝光社死,被告学校,下场大快人心

米果说识
2026-04-19 16:40:24
用户买20TB+硬盘还在质保期坏了 东芝拒免费换新:我们愿原价退款

用户买20TB+硬盘还在质保期坏了 东芝拒免费换新:我们愿原价退款

快科技
2026-04-20 11:23:09
住了33年的房屋要被强拆还地,台湾妇人叫嚣:我是大日本帝国臣民

住了33年的房屋要被强拆还地,台湾妇人叫嚣:我是大日本帝国臣民

金牛传声
2026-04-19 12:27:48
男子半夜捉奸妻子,杀死奸夫,2014年死者妻子:丈夫情妇太多报应

男子半夜捉奸妻子,杀死奸夫,2014年死者妻子:丈夫情妇太多报应

汉史趣闻
2026-04-19 15:10:54
安徽阜阳一服刑人员在监狱突然死亡,检察院重新认定为“非正常死亡”,狱警一审因虐待被监管人员罪获刑

安徽阜阳一服刑人员在监狱突然死亡,检察院重新认定为“非正常死亡”,狱警一审因虐待被监管人员罪获刑

极目新闻
2026-04-20 10:46:44
35岁男子常用微波炉加热食物,2年后确诊胃癌,医生:犯了2个大错

35岁男子常用微波炉加热食物,2年后确诊胃癌,医生:犯了2个大错

小柱解说游戏
2026-04-19 21:11:53
叛逃至我国级别最高的外国领导人:越南副主席黄文欢,结局如何?

叛逃至我国级别最高的外国领导人:越南副主席黄文欢,结局如何?

兴趣知识
2026-04-20 01:15:11
马卡:马竞全队返航时飞机上弥漫着葬礼般的氛围

马卡:马竞全队返航时飞机上弥漫着葬礼般的氛围

懂球帝
2026-04-20 10:40:10
1999年,69岁禹作敏狱中难耐孤寂,死前曾向李瑞环提出:我想回家

1999年,69岁禹作敏狱中难耐孤寂,死前曾向李瑞环提出:我想回家

华人星光
2026-04-20 09:59:15
中国历史第5人!杨瀚森季后赛首秀52秒0分 工作室:在场即是成长

中国历史第5人!杨瀚森季后赛首秀52秒0分 工作室:在场即是成长

醉卧浮生
2026-04-20 11:45:27
罚15亿!拼多多一员工故意关门,对抗调查,导致执法人员手指骨折

罚15亿!拼多多一员工故意关门,对抗调查,导致执法人员手指骨折

魔都姐姐杂谈
2026-04-19 08:03:27
大跌眼镜!“做空闺蜜”登热搜,劝闺蜜不婚不育,自己孩子10岁了

大跌眼镜!“做空闺蜜”登热搜,劝闺蜜不婚不育,自己孩子10岁了

火山詩话
2026-04-20 07:28:33
这个90后女演员凭什么击败章子怡、马丽,夺得金像影后桂冠

这个90后女演员凭什么击败章子怡、马丽,夺得金像影后桂冠

新民周刊
2026-04-20 11:37:22
解读|法国通过文物归还法案,敦煌藏经洞文物就能回归吗?

解读|法国通过文物归还法案,敦煌藏经洞文物就能回归吗?

澎湃新闻
2026-04-20 08:08:29
2026-04-20 15:03:00
甲子光年
甲子光年
中国科技产业化前沿智库
3417文章数 9263关注度
往期回顾 全部

科技要闻

蓝色起源一级火箭完美回收 客户卫星未入轨

头条要闻

媒体:伊朗刚说不谈 美国立即开打

头条要闻

媒体:伊朗刚说不谈 美国立即开打

体育要闻

阿森纳已拼尽全力,但你早干嘛去了...

娱乐要闻

鹿晗生日上热搜,被关晓彤撕下体面

财经要闻

月之暗面IPO迷局

汽车要闻

把天门山搬进厂?开仰望U8冲上45度坡的那刻 我腿软了

态度原创

旅游
亲子
时尚
健康
房产

旅游要闻

北京经开区重磅发布2026年文商旅体活动

亲子要闻

“疑似被鼠药污染”,国际知名婴幼儿食品多国下架

今年最流行的衣服竟然是它?高级又气质!

干细胞抗衰4大误区,90%的人都中招

房产要闻

重磅!海口北站来了!多项信息曝光,过海时间将大幅缩短!

无障碍浏览 进入关怀版