Skywork技术论坛一手分享：Agent与多模态的落地真相|算法|调用|上下文|agent|深度思考模型

分享至

拐点未现，应用仍在路上。

整理｜田思奇

编辑｜栗子

在人工智能进入高速迭代的第三年，行业的注意力已从单一模型的参数和能力，转向能否真正落地。Agent的落地拐点、多模态的应用前景，和系统架构的扩展性，成为这一波技术讨论的三条主线。

8月19日，在昆仑万维发起的第一期Skywork全球技术论坛讨论会中，来自南洋理工大学、清华大学、上海交通大学、香港中文大学等高校，以及苹果、谷歌、Meta、微软、英伟达、硅基流动等公司的十余位国内外嘉宾，围绕主题「探索大模型边界:从强化学习到多模态推理，以及Agent的下一站」，展开长达数小时的深入交流。

ROI是否足以支撑Agent商业化，长上下文如何在延迟与成本间取得平衡，多模态的研究路径是否已触及天花板？对于这些核心问题，与会者提出了许多坦率的判断。

行业当下的真实处境依然是：热度仍在，但“如何被真正用起来”才是关键。

以下为本次技术讨论会的核心观点，经过编辑整理：

1.短期内，C端Agent更可能选择出海

Agent 商业化拐点是否已经到来？

Agent在2025年被推到热潮中心，被寄望成为下一代人机交互的入口。但现实依然是：看收入就行。Coding已经出现了拐点，而Agent还没有。技术热度尚未在商业层面兑现。

尤其在中国市场，长期被免费教育的用户对订阅付费意愿极低，这让Agent的商业转化更加艰难。

为了衡量这种矛盾，有人提出了“Agentic ROI”的概念——便利与交互成本的比值。只有当这个比例足够高，用户才会愿意付费。但在国内，大厂几乎免费的竞品让ROI接近为零，进一步压低了商业转化。短期内，C端Agent更可能选择出海，到订阅习惯更成熟的市场寻找机会。

但放眼未来一两年，国内随着成本下降、应用数量增加，ROI有望逐步提高，商业化拐点也才可能真正到来。

2.如果环境单一，Agent的能力很快触顶

Agent的壁垒在哪里？

在竞争激烈的市场环境里，通用Agent难以形成优势，真正能走深的是行业知识和垂直场景。当前，编程与数学是 token消耗最大的应用方向，因为数据充足、模式清晰，容易形成可复制的能力。但在其他领域，数据不足让产品很难走向深入。对于中国团队而言，只有找到明确的垂直场景，才能在出海市场站稳。

同时，过去推动模型进步的方式是“堆数据”和加长序列，在纯文本时代行之有效。但进入Agent阶段后，这种规模扩展已不够。环境复杂度才是关键：如果环境单一，Agent的能力很快触顶。研究者普遍关注的，是如何创造并搭建多样化的环境，让模型能在更复杂的情境中学习与交互，否则再强的算力也无法支撑能力提升。

3.任务与奖励的设计决定了Agent能否学到有效策略

多轮训练需要什么样的任务与奖励？RL是否能建立通用标准？

Agent训练的难点往往在于任务本身没有定义好。多轮训练需要难度递进的任务，同时需要低噪声的奖励，否则模型难以学到可复制的策略。动作空间的设计同样关键：自由度越高，潜力越大，但训练难度也会急剧增加。

业界正在探索异步采样的训练架构，以并行方式加快进程，但也带来了算法一致性的新问题。随着训练轮数增加，上下文管理也逐渐成为瓶颈。而更根本的困境在于，语言模型之所以成功，是因为找到了可扩展的训练机制；而在强化学习中，尚没有类似的“通用奖励标准”。在多智能体和复杂场景下，什么才算“做得好”，至今没有统一答案。缺乏稳定反馈，就无法形成可复制的能力。

4.多模态强化学习的生态突破

多模态如何增强Agent训练？奖励机制如何迁移到生成任务？

多模态被认为是潜在的突破口，但现有模型并不适合作为Agent前端，在复杂界面下的理解力不足。如果在预训练阶段引入Agent场景，或采用更激进的混合训练方式，有可能培养更强的长程理解力。但前提是Agent必须具备反思和回退的能力，否则随着工具数量增加，错误率会被放大。

生态短板也不容忽视。目前缺乏开源的原生多模态模型，大公司虽然掌握了强大的视频和多模态能力，但并不开放，这让社区几乎没有机会在多模态模型上做后训练，只能依赖有限的闭源接口。这是一个硬伤。

另一方面，对“环境”的重新理解也在发生。传统RL依赖成百上千个环境保证泛化，而在大模型时代，文本框本身就是一个环境，叠加指令即可形成多任务，关键不在于环境数量，而在于数据质量。

与此同时，研究者正尝试通过奖励机制来衡量视频与图像的生成效果，把人类偏好直接引入训练。GRPO虽在推理上很有效，但生成任务主流方法是基于流匹配的确定性采样，缺乏随机性，难以直接迁移。后来出现的Flow-GRPO等改进，把奖励信号与训练方式统一起来，改善了生成任务中的动作连贯性和一致性。这种方法足够简单，可以扩展到视频等更多生成任务，让过去“不收敛”的探索出现了可操作路径。

5.娱乐场景或许更先爆发

为什么要默认Agent的突破口一定是生产力？

判断拐点的方式未必只有收入曲线，使用情况同样能说明问题。如果用户一轮又一轮追问，而模型能够不断生成越来越多的内容，这意味着系统已经进入正向循环。

有观点认为：“比如让我每月花二十块订个Agent，我会犹豫。但让我买个玩具、看看视频，我花钱更开心。” 从用户消费心理来看，娱乐反而更可能率先迎来爆发。虚拟伴侣、游戏NPC、视频创作助手等场景在海外已经跑出用户基础，未来或许比效率工具更早打开市场。

长远来看，Agent的能力增长可能依赖于一种“双轮过程”：基础模型先预训练，再让Agent在具体任务里积累经验数据，这些数据反过来提升模型，再进入更复杂的新任务，如此往复。用户一旦感受到Agent能力增强，就会提出更难的任务，这时必须依靠Agent framework去扩展范围，再把经验积累回馈给模型。

这种循环一旦建立，能力会快速迭代。未来一年内可能出现首批Agent基础模型，初期可能很小，但会在端侧设备和专业任务场景率先落地。长远来看，未来千亿级别模型的训练数据，很可能大部分都来自Agent自身的经验。

当前的使用数据揭示了另一种信号：在OpenRouter的统计中，Coding调用token占比高达87%，Roleplay占8%。只有当这种使用高度集中的情况逐渐变得均匀，Agent才算真正进入各行各业，那才是真正的拐点。

6.多模态正在拓展自然交互方式，任务设计成关键变量

如何找到合适的规模化任务？

最近多模态方向的开源工作包括Skywork出品的R1V多模态推理系列，以及有“开源Genie3”之称的Matrix-Game 2.0系列，但是范式的可持续性已经显露出问题。强化学习与扩大规模仍能奏效，但前提是不断找到新的任务与数据。

现实困境在于：合适的任务越来越稀缺。机器人也被视为潜在方向，却因环境规模化难度过高而受阻。即便是OpenAI也并没有把重心放在机器人或复杂场景，而是选择继续打磨策略与模型本身。在现有的商业框架下，多模态理解、生成与对话系统仍然可以运作，但长期来看，这条路能走多远，仍是一道开放问题。

应用层面，多模态输入能让交互更自然。用户拍一张照片就能生成PPT，用图像替代复杂的文字描述——这些都是比键盘更高效的表达方式。他发现国内一些金融公司在应用的落地速度上甚至领先美国，说明多模态并非虚无缥缈，而是正在改变办公和业务流程。

但也有观点认为，端侧模型确实能让日常操作快上几秒钟，但差异远未达到革命性。他举了一个例子：即便系统能帮用户自动完成外卖下单，从点餐到支付全程无缝衔接，但和用户自己点单相比，本质差别并不大。真正的突破必须在交互体验中产生质变，而不是仅仅“更快”。

3D和AR/VR领域的瓶颈在于用户规模，连微软的专业设备都卖不动。相比之下，视频应用更接近大规模落地。这种分化的现状说明：多模态的延伸正在遭遇任务稀缺与应用分化的双重挑战。

7.世界模型需要找到新的数据采集方式

游戏与虚拟世界能否带来突破？

世界模型是多模态讨论的焦点。Genie3带来的震撼仅次于Sora，它展示了开放世界的潜力。目标是从《我的世界》逐步逼近GTA级别的复杂度，核心在于物理一致性，而这正是世界模型的关键。

基于此，新的尝试正在出现。Matrix-Game2.0被称为“开源Genie3”，它不仅能生成开放世界，还能支持多人协作。未来的世界模型不能停留在单人键盘操作，而要支持多人协作：同一虚拟世界里，每个人共享场景，但从不同视角互动。他设想用户不仅通过键盘控制，还能用即时输入修改环境，比如加入新的元素或特效，再继续探索。基于视频生成的世界模型与视频编辑在他看来本就是一体，只是交互方式不同。

然而，进展背后也存在清晰的局限。模型的一致性和多样性虽在快速进步，但交互动作空间依旧过窄，只能支持简单动作。更关键的是，真实世界数据依然稀缺，反向标注视频误差大。如果未来能普及长续航的采集设备，让普通人日常携带并录制场景，也许才能提供有价值的训练数据辅助世界模型。

8.生成与理解融合是长期方向，短期内拼接更可行

生成是否能反哺理解？统一模型是必然还是工程折中？

生成与理解是否应该统一，是多模态研究中最具争议的问题。回顾GPT-4的实践可以看出，图像生成与理解在后训练阶段其实是两套流程，并非真正统一。虽然在预训练阶段可能存在互相促进，但缺乏明确证据。理解可以帮助生成，但还没有看到生成显著帮助理解。

同时，生成追求极细节，理解则是抽象语义，硬统一可能适得其反。多数公司选择保留两套模型，各自最优。这类“统一模型”，往往只是工程折中而已。

另一种声音坚持统一的价值。在实际服务中，用户咨询足球鞋时，模型不仅文字解释，还能自动生成图像，展示鞋钉与场地的对应关系。这种“理解+生成”的一体化体验，才真正体现了多模态的意义。

但在工程层面，拼接方案短期更稳健。生成需要低层次特征，理解偏高层抽象，两者难以兼容，训练也更难收敛。相比之下，把理解模型的推理能力注入生成流程，反而能显著提升质量，减少幻觉。因此他判断，短期和中期拼接方案会是主流。

一体化模型Skywork UniPic系列作为拼接派代表工作之一，让“理解—生成—编辑”在统一表示里闭环；同时又与奖励模型的耦合，实现了前沿的生成和理解效果，也兼顾落地稳定性。

9.音频有望成为主流人机交互入口

语音交互的挑战是什么？数据困境如何突破？

在视觉之外，音频被普遍认为是下一个潜在突破口。音频生成正在经历结构性变化：从低采样语音逐步迈向高保真音乐，从单声道过渡到沉浸式环绕声，再到与视频模态的紧密结合，这些演进都意味着新的交互可能性。例如，当音频与视频一同输入时，模型在理解层面的表现往往会更准确。

但与视觉相比，音频领域的问题更加棘手——风格和情绪标签的主观性，使得标注难度极高，不同人往往无法达成一致。这种数据困境，让音频模态的潜力显得既诱人又难以把握。

展望未来，分歧依然存在。有人判断多模态将长期赋能智能硬件与机器人，渗透到更多终端设备；也有人主张借鉴人脑的模块化架构，让感知、记忆、推理分区运作，再通过协调实现低功耗与可解释性；另一条路线则是继续追求大一统模型，用跨模态超大规模数据和新架构寻求突破。与此同时，也有人强调工程可行性，认为拼接与大一统会长期并行发展。

在交互层面，语音被寄予厚望。相比文字输入，语音更自然直观，也能承载情绪与语气。用户之间或者用户与模型之间，可以仅通过自然语音共建世界模型，边说边生成，动态地改造和拓展虚拟世界。这种方式比打字更高效直观，也更符合人类的交流习惯。

不过语音交互仍面临一些挑战：口头指令往往含糊，复杂操作可能需要与文字或图形界面结合；而“边说边生成”对模型的实时响应也提出了算力和延迟方面的更高要求。他相信语音将在未来成为多模态协作的重要入口。

10.长上下文是最大的瓶颈，也是最核心的价值

长上下文如何改变Agent的应用场景？

当视角转回系统层面，问题就更加直接：长上下文带来的延迟与显存压力。从Linear到Sparse，从MoE到非对称稀疏，工程层的博弈决定了这些探索能否真正落地。

随着模型输入长度从2023年的8k、32k，扩展到2024年GPT-4-turbo的128k、Claude 3的200k，以及Gemini 1.5 Pro的1M token，上下文的急剧增长推高了计算成本。推理显存占用不仅线性增加，推理所需计算量甚至呈超线性上升，一次对话的成本可能从几毛钱涨到数元甚至数十元。企业被迫通过缩短输入或拆分任务来规避，但当长上下文成为刚需，这种矛盾愈发尖锐。

长上下文已成为Agent应用的最大瓶颈——很多功能要么慢，要么价格高，根源都在上下文过长。即便做到百万级上下文，检索增强机制会长期存在，本质上类似人类的长期记忆调用。“人的工作记忆很短，很多信息都靠长期记忆检索，AI也是一样，即便做到百万级上下文，检索仍然需要，只是更高效。

11.混合注意力架构正在成为趋势，但算法选择与工程代价尚未收敛

Linear与Sparse的分歧能否统一？

在长上下文压力下，业界逐渐分化为Linear与Sparse（如DeepSeek团队提出的NSA）两大派系。但现实是，两者并非非此即彼，而是常常需要混合使用。MiniMax的模型就交错结合了Linear Attention和Global Attention，甚至可以尝试把Global部分换成NSA，看是否能互补。然而，这类实验几乎没有团队真正做过，因为资源消耗太大。Sparse尚未在大模型中展现出决定性优势，Linear也存在信息丢失问题，单走一条路现在都不够好。

具体到方案，Linear Attention的问题在于它对所有位置一视同仁，和语义层级特征不符，高层语义理应更粗粒度。而NSA至少能做到先粗选再细推，符合语义处理规律。但NSA的工程复杂度很高，目前体验也不理想。另一种方向是Log-Linear状态空间，它能让状态随时间以对数方式扩展，更像人脑的记忆曲线：“信息逐渐累积，但不是均匀增加。”未来也可能出现更直观的方案，比如模拟记忆曲线或KV压缩。

这些探索说明，混合注意力机制正走向主流，但在算法选择与工程代价之间仍未收敛。

12.稀疏化与MoE展现潜力，硬件支持将决定规模化未来

MoE如何避免显存失衡？非对称稀疏能否更高效？

长上下文引发的是“记忆”的争论，而MoE直指“激活”。MoE的细节差异常常决定效果。共享专家机制并非必要，过细的路由还可能导致GPU显存分配失衡。一种改进思路是让非关键信息token限制专家路由，把算力集中在关键token上。另一种设想是“非对称稀疏”：不同token激活不同规模的专家，简单任务提前中止，复杂任务调用更多层。这可能更高效，但目前尚无成熟实践。

稀疏化的潜在收益很大，但优化难度同样增加。细粒度稀疏潜力巨大，却难以工程化；结构化稀疏是当前现实的折中方案。GPU的特性决定了这一限制：人脑是全稀疏的，而GPU并不擅长非结构化稀疏。MoE在宏观上稀疏、微观上稠密，恰好契合GPU的block结构，因此能落地。如果未来硬件能更好支持稀疏计算，微观稀疏化也许才可能真正规模化。

这也解释了为什么大模型发展不能仅依赖参数和算法叠加，而需要结构稀疏化、训练异步化和系统异构化的协同演进。GPT-5迭代速度放缓，正是实验资源逼近极限的直接反映。

这类架构问题往往在营销叙事中不被强调，但它们决定了大模型能否真正走出实验室，商业与技术如何对齐，研究与应用如何衔接，这才是今天最现实的矛盾。

从Agent到多模态，再到系统架构，Skywork技术研讨会嘉宾很难较短的时间内提出最终的解决方案，但核心问题均已浮出水面。对昆仑万维而言，举办这样的研讨，将有力推动产业界与学术界在关键议题上达成共识。接下来，Skywork技术论坛讨论会研讨会还将持续展开，而这些未竟的对话，本身就是值得关注的方向。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.