Skywork全球技术论坛讨论会实录：Agent、多模态与系统架构的挑战|算法|调用|上下文|大模型|agent

分享至

来源：市场资讯

（来源：昆仑万维）

　　8月19号，昆仑万维Skywork全球技术论坛讨论会第一期如期举行。线上，来自十余个机构和组织的行业专家与从业者以及世界各地的观众一起加入了此次技术交流。

　　Skywork团队与来自南洋理工大学、香港中文大学、清华大学、北京大学、上海交通大学、Meta、微软、英伟达、苹果等高校和机构的十几位研究者及业界嘉宾在Agent、强化学习、大模型系统等领域探讨了当前的前沿话题。

我们将本场研讨会的嘉宾观点分享给大家，以下是精华要点：

1. 短期内，C端Agent更可能选择出海

Agent 商业化拐点是否已经到来？

　　Agent在2025年被推到热潮中心，被寄望成为下一代人机交互的入口。但现实依然是：看收入就行。Coding已经出现了拐点，而Agent还没有。技术热度尚未在商业层面兑现。

　　尤其在中国市场，长期被免费教育的用户对订阅付费意愿极低，这让Agent的商业转化更加艰难。

　　为了衡量这种矛盾，有人提出了“Agentic ROI”的概念——便利与交互成本的比值。只有当这个比例足够高，用户才会愿意付费。但在国内，大厂几乎免费的竞品让ROI接近为零，进一步压低了商业转化。短期内，C端Agent更可能选择出海，到订阅习惯更成熟的市场寻找机会。

　　但放眼未来一两年，国内随着成本下降、应用数量增加，ROI有望逐步提高，商业化拐点也才可能真正到来。

2. 如果环境单一，Agent的能力很快触顶

Agent的壁垒在哪里？

　　在竞争激烈的市场环境里，通用Agent难以形成优势，真正能走深的是行业知识和垂直场景。当前，编程与数学是 token消耗最大的应用方向，因为数据充足、模式清晰，容易形成可复制的能力。但在其他领域，数据不足让产品很难走向深入。对于中国团队而言，只有找到明确的垂直场景，才能在出海市场站稳。

　　同时，过去推动模型进步的方式是“堆数据”和加长序列，在纯文本时代行之有效。但进入Agent阶段后，这种规模扩展已不够。环境复杂度才是关键：如果环境单一，Agent的能力很快触顶。研究者普遍关注的，是如何创造并搭建多样化的环境，让模型能在更复杂的情境中学习与交互，否则再强的算力也无法支撑能力提升。

3. 任务与奖励的设计决定了Agent能否学到有效策略

多轮训练需要什么样的任务与奖励？RL是否能建立通用标准？

　　Agent训练的难点往往在于任务本身没有定义好。多轮训练需要难度递进的任务，同时需要低噪声的奖励，否则模型难以学到可复制的策略。动作空间的设计同样关键：自由度越高，潜力越大，但训练难度也会急剧增加。

　　业界正在探索异步采样的训练架构，以并行方式加快进程，但也带来了算法一致性的新问题。随着训练轮数增加，上下文管理也逐渐成为瓶颈。而更根本的困境在于，语言模型之所以成功，是因为找到了可扩展的训练机制；而在强化学习中，尚没有类似的“通用奖励标准”。在多智能体和复杂场景下，什么才算“做得好”，至今没有统一答案。缺乏稳定反馈，就无法形成可复制的能力。

4. 多模态强化学习的生态突破

多模态如何增强Agent训练？奖励机制如何迁移到生成任务？

　　多模态被认为是潜在的突破口，但现有模型并不适合作为Agent前端，在复杂界面下的理解力不足。如果在预训练阶段引入Agent场景，或采用更激进的混合训练方式，有可能培养更强的长程理解力。但前提是Agent必须具备反思和回退的能力，否则随着工具数量增加，错误率会被放大。

　　生态短板也不容忽视。目前缺乏开源的原生多模态模型，大公司虽然掌握了强大的视频和多模态能力，但并不开放，这让社区几乎没有机会在多模态模型上做后训练，只能依赖有限的闭源接口。这是一个硬伤。

　　另一方面，对“环境”的重新理解也在发生。传统RL依赖成百上千个环境保证泛化，而在大模型时代，文本框本身就是一个环境，叠加指令即可形成多任务，关键不在于环境数量，而在于数据质量。

　　与此同时，研究者正尝试通过奖励机制来衡量视频与图像的生成效果，把人类偏好直接引入训练。GRPO虽在推理上很有效，但生成任务主流方法是基于流匹配的确定性采样，缺乏随机性，难以直接迁移。后来出现的Flow-GRPO等改进，把奖励信号与训练方式统一起来，改善了生成任务中的动作连贯性和一致性。这种方法足够简单，可以扩展到视频等更多生成任务，让过去“不收敛”的探索出现了可操作路径。

5. 娱乐场景或许更先爆发

为什么要默认Agent的突破口一定是生产力？

　　判断拐点的方式未必只有收入曲线，使用情况同样能说明问题。如果用户一轮又一轮追问，而模型能够不断生成越来越多的内容，这意味着系统已经进入正向循环。

　　有观点认为：“比如让我每月花二十块订个Agent，我会犹豫。但让我买个玩具、看看视频，我花钱更开心。” 从用户消费心理来看，娱乐反而更可能率先迎来爆发。虚拟伴侣、游戏NPC、视频创作助手等场景在海外已经跑出用户基础，未来或许比效率工具更早打开市场。

　　长远来看，Agent的能力增长可能依赖于一种“双轮过程”：基础模型先预训练，再让Agent在具体任务里积累经验数据，这些数据反过来提升模型，再进入更复杂的新任务，如此往复。用户一旦感受到Agent能力增强，就会提出更难的任务，这时必须依靠Agent framework去扩展范围，再把经验积累回馈给模型。

　　这种循环一旦建立，能力会快速迭代。未来一年内可能出现首批Agent基础模型，初期可能很小，但会在端侧设备和专业任务场景率先落地。长远来看，未来千亿级别模型的训练数据，很可能大部分都来自Agent自身的经验。

　　当前的使用数据揭示了另一种信号：在OpenRouter的统计中，Coding调用token占比高达87%，Roleplay占8%。只有当这种使用高度集中的情况逐渐变得均匀，Agent才算真正进入各行各业，那才是真正的拐点。

6. 多模态正在拓展自然交互方式，任务设计成关键变量

如何找到合适的规模化任务？

　　最近多模态方向的开源工作包括Skywork出品的R1V多模态推理系列，以及有“开源Genie3”之称的Matrix-Game 2.0系列，但是范式的可持续性已经显露出问题。强化学习与扩大规模仍能奏效，但前提是不断找到新的任务与数据。

　　现实困境在于：合适的任务越来越稀缺。机器人也被视为潜在方向，却因环境规模化难度过高而受阻。即便是OpenAI也并没有把重心放在机器人或复杂场景，而是选择继续打磨策略与模型本身。在现有的商业框架下，多模态理解、生成与对话系统仍然可以运作，但长期来看，这条路能走多远，仍是一道开放问题。

　　应用层面，多模态输入能让交互更自然。用户拍一张照片就能生成PPT，用图像替代复杂的文字描述——这些都是比键盘更高效的表达方式。他发现国内一些金融公司在应用的落地速度上甚至领先美国，说明多模态并非虚无缥缈，而是正在改变办公和业务流程。

　　但也有观点认为，端侧模型确实能让日常操作快上几秒钟，但差异远未达到革命性。他举了一个例子：即便系统能帮用户自动完成外卖下单，从点餐到支付全程无缝衔接，但和用户自己点单相比，本质差别并不大。真正的突破必须在交互体验中产生质变，而不是仅仅“更快”。

　　3D和AR/VR领域的瓶颈在于用户规模，连微软的专业设备都卖不动。相比之下，视频应用更接近大规模落地。这种分化的现状说明：多模态的延伸正在遭遇任务稀缺与应用分化的双重挑战。

7. 世界模型需要找到新的数据采集方式

游戏与虚拟世界能否带来突破？

　　世界模型是多模态讨论的焦点。Genie3带来的震撼仅次于Sora，它展示了开放世界的潜力。目标是从《我的世界》逐步逼近GTA级别的复杂度，核心在于物理一致性，而这正是世界模型的关键。

　　基于此，新的尝试正在出现。Matrix-Game2.0被称为“开源Genie3”，它不仅能生成开放世界，还能支持多人协作。未来的世界模型不能停留在单人键盘操作，而要支持多人协作：同一虚拟世界里，每个人共享场景，但从不同视角互动。他设想用户不仅通过键盘控制，还能用即时输入修改环境，比如加入新的元素或特效，再继续探索。基于视频生成的世界模型与视频编辑在他看来本就是一体，只是交互方式不同。

　　然而，进展背后也存在清晰的局限。模型的一致性和多样性虽在快速进步，但交互动作空间依旧过窄，只能支持简单动作。更关键的是，真实世界数据依然稀缺，反向标注视频误差大。如果未来能普及长续航的采集设备，让普通人日常携带并录制场景，也许才能提供有价值的训练数据辅助世界模型。

8. 生成与理解融合是长期方向，短期内拼接更可行

生成是否能反哺理解？统一模型是必然还是工程折中？

　　生成与理解是否应该统一，是多模态研究中最具争议的问题。回顾GPT-4的实践可以看出，图像生成与理解在后训练阶段其实是两套流程，并非真正统一。虽然在预训练阶段可能存在互相促进，但缺乏明确证据。理解可以帮助生成，但还没有看到生成显著帮助理解。

　　同时，生成追求极细节，理解则是抽象语义，硬统一可能适得其反。多数公司选择保留两套模型，各自最优。这类“统一模型”，往往只是工程折中而已。

　　另一种声音坚持统一的价值。在实际服务中，用户咨询足球鞋时，模型不仅文字解释，还能自动生成图像，展示鞋钉与场地的对应关系。这种“理解+生成”的一体化体验，才真正体现了多模态的意义。

　　但在工程层面，拼接方案短期更稳健。生成需要低层次特征，理解偏高层抽象，两者难以兼容，训练也更难收敛。相比之下，把理解模型的推理能力注入生成流程，反而能显著提升质量，减少幻觉。因此他判断，短期和中期拼接方案会是主流。

　　一体化模型Skywork UniPic系列作为拼接派代表工作之一，让“理解—生成—编辑”在统一表示里闭环；同时又与奖励模型的耦合，实现了前沿的生成和理解效果，也兼顾落地稳定性。

9. 音频有望成为主流人机交互入口

语音交互的挑战是什么？数据困境如何突破？

　　在视觉之外，音频被普遍认为是下一个潜在突破口。音频生成正在经历结构性变化：从低采样语音逐步迈向高保真音乐，从单声道过渡到沉浸式环绕声，再到与视频模态的紧密结合，这些演进都意味着新的交互可能性。例如，当音频与视频一同输入时，模型在理解层面的表现往往会更准确。

　　但与视觉相比，音频领域的问题更加棘手——风格和情绪标签的主观性，使得标注难度极高，不同人往往无法达成一致。这种数据困境，让音频模态的潜力显得既诱人又难以把握。

　　展望未来，分歧依然存在。有人判断多模态将长期赋能智能硬件与机器人，渗透到更多终端设备；也有人主张借鉴人脑的模块化架构，让感知、记忆、推理分区运作，再通过协调实现低功耗与可解释性；另一条路线则是继续追求大一统模型，用跨模态超大规模数据和新架构寻求突破。与此同时，也有人强调工程可行性，认为拼接与大一统会长期并行发展。

　　在交互层面，语音被寄予厚望。相比文字输入，语音更自然直观，也能承载情绪与语气。用户之间或者用户与模型之间，可以仅通过自然语音共建世界模型，边说边生成，动态地改造和拓展虚拟世界。这种方式比打字更高效直观，也更符合人类的交流习惯。

　　不过语音交互仍面临一些挑战：口头指令往往含糊，复杂操作可能需要与文字或图形界面结合；而“边说边生成”对模型的实时响应也提出了算力和延迟方面的更高要求。他相信语音将在未来成为多模态协作的重要入口。

10. 长上下文是最大的瓶颈，也是最核心的价值

长上下文如何改变Agent的应用场景？

　　当视角转回系统层面，问题就更加直接：长上下文带来的延迟与显存压力。从Linear到Sparse，从MoE到非对称稀疏，工程层的博弈决定了这些探索能否真正落地。

　　随着模型输入长度从2023年的8k、32k，扩展到2024年GPT-4-turbo的128k、Claude 3的200k，以及Gemini 1.5 Pro的1M token，上下文的急剧增长推高了计算成本。推理显存占用不仅线性增加，推理所需计算量甚至呈超线性上升，一次对话的成本可能从几毛钱涨到数元甚至数十元。企业被迫通过缩短输入或拆分任务来规避，但当长上下文成为刚需，这种矛盾愈发尖锐。

　　长上下文已成为Agent应用的最大瓶颈——很多功能要么慢，要么价格高，根源都在上下文过长。即便做到百万级上下文，检索增强机制会长期存在，本质上类似人类的长期记忆调用。“人的工作记忆很短，很多信息都靠长期记忆检索，AI也是一样，即便做到百万级上下文，检索仍然需要，只是更高效。

11. 混合注意力架构正在成为趋势，但算法选择与工程代价尚未收敛

Linear与Sparse的分歧能否统一？

　　在长上下文压力下，业界逐渐分化为Linear与Sparse（如DeepSeek团队提出的NSA）两大派系。但现实是，两者并非非此即彼，而是常常需要混合使用。MiniMax的模型就交错结合了Linear Attention和Global Attention，甚至可以尝试把Global部分换成NSA，看是否能互补。然而，这类实验几乎没有团队真正做过，因为资源消耗太大。Sparse尚未在大模型中展现出决定性优势，Linear也存在信息丢失问题，单走一条路现在都不够好。

　　具体到方案，Linear Attention的问题在于它对所有位置一视同仁，和语义层级特征不符，高层语义理应更粗粒度。而NSA至少能做到先粗选再细推，符合语义处理规律。但NSA的工程复杂度很高，目前体验也不理想。另一种方向是Log-Linear状态空间，它能让状态随时间以对数方式扩展，更像人脑的记忆曲线：“信息逐渐累积，但不是均匀增加。”未来也可能出现更直观的方案，比如模拟记忆曲线或KV压缩。

　　这些探索说明，混合注意力机制正走向主流，但在算法选择与工程代价之间仍未收敛。

12. 稀疏化与MoE展现潜力，硬件支持将决定规模化未来

MoE如何避免显存失衡？非对称稀疏能否更高效？

　　长上下文引发的是“记忆”的争论，而MoE直指“激活”。MoE的细节差异常常决定效果。共享专家机制并非必要，过细的路由还可能导致GPU显存分配失衡。一种改进思路是让非关键信息token限制专家路由，把算力集中在关键token上。另一种设想是“非对称稀疏”：不同token激活不同规模的专家，简单任务提前中止，复杂任务调用更多层。这可能更高效，但目前尚无成熟实践。

　　稀疏化的潜在收益很大，但优化难度同样增加。细粒度稀疏潜力巨大，却难以工程化；结构化稀疏是当前现实的折中方案。GPU的特性决定了这一限制：人脑是全稀疏的，而GPU并不擅长非结构化稀疏。MoE在宏观上稀疏、微观上稠密，恰好契合GPU的block结构，因此能落地。如果未来硬件能更好支持稀疏计算，微观稀疏化也许才可能真正规模化。

　　这也解释了为什么大模型发展不能仅依赖参数和算法叠加，而需要结构稀疏化、训练异步化和系统异构化的协同演进。GPT-5迭代速度放缓，正是实验资源逼近极限的直接反映。

　　这类架构问题往往在营销叙事中不被强调，但它们决定了大模型能否真正走出实验室，商业与技术如何对齐，研究与应用如何衔接，这才是今天最现实的矛盾。

　　从Agent到多模态，再到系统架构，Skywork技术研讨会嘉宾很难较短的时间内提出最终的解决方案，但核心问题均已浮出水面。对昆仑万维而言，举办这样的研讨，将有力推动产业界与学术界在关键议题上达成共识。接下来，Skywork技术论坛讨论会研讨会还将持续展开，而这些未竟的对话，本身就是值得关注的方向。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.