从模型到工作流：2026 上半年图片与视频模型盘点。|模态|智能体|image

分享至

嗨大家好！我是阿真！

一转眼 2026 年已经进入下半年，是时候对上半年进行一些小结了。

今天来好好盘点 2026 年上半年的图片与视频模型，伴随模型更新时间轴出现的，还有我一些当时的测试文章。也算是对不怎么努力也没什么收获的上半年做个总结汇报了。

叠甲：我的观点只是我的观点，完全不权威，有看法的都是个人看法，大家想反对就直接反对。我这里不存在反感或者痛骂某个模型的情况，大部分时候比较理性。同时，我也可能会对有的模型的真正价值理解不够透彻，还有可能漏掉一些沧海遗珠，大家可以评论区补充或者积极留言。

以及，这篇文章以模型为主线，如果有朋友好奇为什么没有即梦或其他的话，即梦属于产品，我肯定会提到即梦这个产品它使用的模型；模型绕不开它所在的产品时，我也会顺带聊到产品，但不做单独的产品测评。

上半年发布了什么？

问起这个问题的时候，你的脑海里出现了哪些图片和视频模型？

Nano Banana Pro，GPT Image 2，Seedance 2.0？

实际上 Nano Banana Pro 已经是 2025 年 11 月 20 日发布的模型了，今年 2 月发布的是 Nano Banana 2，是谷歌的另一个相对更便宜的图片模型。

而上面提到的几个图片模型和视频模型，算是我们公认的今年上半年好评最多的模型了。

但其实上半年还有很多团队的图片和视频模型发布，并且它们也都有各自的亮点。大家也可以看看，哪些模型是你体验过的？下半年，大家会看好哪些模型呢？

1月份

1月9日，Midjourney Niji 7 发布。相比于上一代，它的细节更加清晰，比如眼睛反光以及背景的小元素都更加细致。并且，它也拥有更好的动漫一致性、Prompt 理解能力、风格迁移的表现，可以说是审美与风格专用模型细分品类中的 TOP。不过，虽然官方表示优化了文字渲染能力，但说实话，这方面做了约等于白做，竞争力不大。不过换个角度想，守住一个单点，可能也是一种清晰的定位。详情可看

1月13日，谷歌升级 Veo 3.1 Ingredients to Video，可用参考图控制角色、背景、物体和纹理；强化角色身份一致性、背景与物体一致性；支持原生竖屏输出，并可在 Flow、Gemini API 和 Vertex AI 中升采样到 1080p 或 4K。这个在海外的呼声不错，为广告和产品、电商以及角色连续短片领域带来了更多的可能性。“Ingredients（食材 / 成分 / 配料）”这个命名也很有意思，也算是预告了全年视频模型交互方式的走向，包括后面 Seedance 2.0 的多参考输入，也是在这个方向大大加强了。

1月14日，智谱发布了 GLM-Image，开源图片模型、工业级、支持较好的文字渲染。16B 架构，其中 9B 自回归 + 7B diffusion；最高支持 2048px；强调文字渲染、语义对齐、图生图。自回归 + 扩散的混合架构，抓的是语义理解加像素质量。

1月26日，Luma AI 发布 Ray 3.14，支持原生 1080p。官方对比比 Ray 3.0 快 4 倍、便宜 3 倍；提升视频稳定性和 Modify Video 运动一致性。Luma AI 的产品我体验过多次，2.0 我是充值力证自己冤大头，但 3.14 的视频修改编辑还是不错的。

同一天腾讯混元发布了 HunyuanImage-3.0-Instruct-Distil，开源图片模型。Instruct 支持推理式提示词增强和图生图创意编辑，Distil 面向更高效部署，官方推荐 8 步采样。Distil 确实是试图降低了采样步数和部署门槛，但是模型重、显存门槛也高，哪怕量化也是大块头，差不多就是 4090 用户咬咬牙可以用的程度。开源模型就是这样，权重开放是一回事，部署成本才是决定因素。

1月30日，生数科技在 Global Creativity Week 期间发布 Vidu Q3 视频模型。支持原生音频与视频同生，视频最长时间达到 16 秒，可生成对话、旁白、音效、音乐，强调镜头控制和叙事连续性。这套配置放在短剧、动画、漫画改编上，性价比是很高的，不过最长 16 秒还是不容易。原生音频，上半年也是在视频模型能力角逐中逐步从差异化变成了入场券。

2月份

2月5日，快手的 Kling AI 3.0 模型系列上线，图片和视频模型一起上线。“人人都能当导演”是它的核心宣传点，图片模型开始支持 2K、4K 和专业资产。视频模型也进一步提升了叙事控制和一致性，支持多镜头与原生音频。这是国内视频模型产品化的种子选手了。

2月10日，阿里的 Qwen-Image-2.0 模型发布。回头看 Qwen 到这时候竟然才 2.0。2.0 支持统一高保真生成与精准图像编辑，支持最长 1K token（国产模型约 600-900 汉字）指令；面向 PPT、海报、信息图、漫画等文本密集内容；原生高分辨率和多语言文字表现增强。这篇第一时间没写，过完年在千问 APP 做了测试，文字和编辑效果都还不错的。虽然好像网络呼声没有很大，但已早早进入了各类工作流场景，比如ComfyUI 和企业管线里。测试效果可以看这篇

2月12日，大家都认可的允许使用炸裂形容的模型面世，字节跳动 Seed 团队正式发布新一代视频创作模型 Seedance 2.0。一开始以为吹的，后面发现它竟有些谦虚了。Seedance 2.0 实现了统一多模态音视频联合生成架构，支持文字、图片、音频、视频四类输入，可参考最多 9 张图、3 段视频、3 段音频，生成最长 15 秒多镜头音视频输出。在动作、物理、电影语言以及多镜头方面都非常让人惊喜，但是一上线就在版权、IP、区域可用性以及真实人物方面都引起争议和大量讨论。下一个这么牛轰轰的模型好像还是 Anthropic 的 Claude Mythos 5。

当模型强到可以逼真复现任何 IP、任何真人的时候，比能不能生成来得更快的，是敢不敢放出来了。纸面能力减去合规削弱的成品，才是我们真正能用的东西。这是当时阿真参与首轮内测的输出视频分享

2月13日，字节跳动 Seed 团队推出 Seedream 5.0 Lite 智能图像创作模型。这个图片模型强调“deeper thinking, more accurate generation（更深度思考，更精确生成）”。提升理解、推理、生成，实时搜索增强，更强信息可视化、风格迁移、模糊指令编辑、多主体复杂关系。在实时热点海报、资料图、信息图方向都有进步，但是细节、真实感上也都有进步空间。大家用完表示不如前一版本的观点也存在，这个版本存在感好像确实不算高，但是进步还是有的，期待更稳定版的 5.0。“推理换画质”似乎是今年图片模型的普遍取舍。模型花更多算力去想清楚你要什么，代价可能是像素层面的细节退步。这个跷跷板什么时候能两头都翘起来，那就是真的成了。

2月26日，谷歌官方发布 Nano Banana 2，也是一个大家期待的模型，毕竟前有 Nano Banana Pro 站在图片模型巅峰将近 3 个月，大家对 2 期待也很高。Nano Banana 2 定位为“Pro 能力 + Flash 速度”；强调高级世界知识、production-ready specs（能正经上生产环境用的配置）、主体一致性、快速生成。总的来说 Nano Banana 2 和 Pro 相比最大的优势在于更快更便宜，大家用起来不至于肉痛，从质量和细节来说个人感觉并没有超越 Nano Banana Pro。至于为什么巅峰三个月了再发个好像还不如之前的版本，除了更便宜更快，可能也是它自己预判这一代技术的质量红利它已经吃得差不多了。这个我测了 2 篇，请看

2月26日至27日，昆仑万维 SkyReels-V4 先后发布技术报告并以 Preview 版本亮相榜单，曾在权威榜单上冲到全球第二（文生视频无音频）。统一多模态视频-音频生成、inpainting（局部重绘）和编辑；支持文本、图像、视频、mask、音频参考；最高 1080p、32fps、15 秒；视频和音频双流 MMDiT。这是一个深耕 AI 短剧的模型。

3月份

3月17日，Midjourney 开放 V8 Alpha 社区测试，Midjourney V8 Alpha 相比 V7，指令跟随能力更强、对复杂 prompt 的细节还原更精准；画面一致性和细节密度均有提升，文本渲染质量显著改善。生成速度约为 V7 的 5 倍。兼容 V7 的个性化（personalization）、情绪板（moodboards）和风格参考（srefs），新增了 --hd 原生 2K 输出与 --q 4 高质量模式。虽然从 V5.1 以后 Midjourney 的进步普通人已经几乎看不出太大差异，但是整体还是有提升，好看也依然好看，但也仅仅是好看了。

一个只赢在审美的模型，护城河可能正在从产品能力退化为社区惯性。当时我也是整不出活了，做了 Midjourney V8 Alpha 和 Nano Banana 2 图片模型的对比，按各自擅长领域来说，这就像是蹦床和跳水运动员对比身体控制能力，没什么可比性，看看各自的图片效果就好了

3月23日，Luma AI 团队公开发布 Uni-1，官方定位为 Unified Intelligence 家族第一代图像模型；官方页面称其是“能生成像素的多模态推理模型”。统一理解、推理和图像生成；支持 Create（创建）、Modify（修改）双模式；最多 9 张参考图；支持 seed 复现、角色一致性、多参考架构、迭代修改。文字细节和 seed 复现这个小功能不错。

3月26日，腾讯混元团队发布 OmniWeaving（又称 HY-OmniWeaving）技术报告，4月3日开源了代码和模型权重。支持用文字、图片、参考素材一键生成视频，能给视频、首尾帧画面、关键帧做编辑和续写，各种玩法自由混搭；还增加了可推理的大模型改善提示词（让会推理的大模型理解意图然后指挥生成视频）和自由组合。对于 ComfyUI 社区而言，它是开源视频模型向“推理 + 多任务统一”推进的节点。开源模型，拼可拆解、可组合、可自部署就好了，这是闭源模型实现不了的。

3月30日，PixVerse 官方发布 V6（国内产品拍我AI）模型。提升了镜头执行力、角色表演能力，支持多镜头音视频一起生成、至此又一视频模型支持自带原生音频，面向创意创作、商业拍摄和智能体工作流。国内占有率不是太清楚，但在海外他们一直是比较受欢迎的，有趣模板多、生成速度快，多镜头等功能也好上手。“面向智能体工作流”我们结合那个时间节点去看，OpenClaw 兴起，PixVerse 也是快速锚定了用智能体调用它的群体做了 CLI。

4月份

4月1日，阿里发布 Wan2.7-Image，这个图片模型在万相可以体验，继续朝专业设计与生产力方向发力，除了广大图片模型都会卷的图片编辑、复杂意图理解和信息图、高清 4K 画质、超长文本渲染支持以外，它加入了一些新的创意，多语言多组图、调色盘控制生成图色彩配比、支持通过提示词细节达到捏脸效果“千人千面”、支持 Alpha 通道、支持最大长宽比 1:8。之前 Nano Banana 2 最高也支持 1:8 的长比例，但是在汉字的稳定性方面，Wan2.7-Image 是有优势的。调色盘、Alpha 通道、超长比例，都是设计师的痛点。感兴趣可以看这篇

4月3日，阿里发布 Wan2.7-Video 系列，涵盖文生视频、图生视频、参考生视频和视频编辑四大模型，覆盖从零创作到精细编辑的完整链路。全系支持 720P/1080P，时长 2-15 秒任意指定；一句话即可对视频做局部或整体修改，角色台词可替换并自动匹配口型与音色；最多支持 5 个视频主体参考，为当时业内最多。

4月13日，生数科技发布 Vidu Q3 参考生视频（Reference-to-Video），定位为面向故事驱动创作的参考生视频能力；官方页面显示 Reference to Video 支持上传 1-7 张参考图，用于保持角色、物体和场景一致。感兴趣可以看看这篇

4月14日，Midjourney 发布 V8.1 Alpha，作为 V8 后续版本。相比 V8，保持了 V7 式大家熟悉的审美；情绪板（Moodboards）和风格引用（srefs）更稳定；高清 HD 模式比 V8 快 3 倍、便宜 3 倍；标准分辨率快 50%、便宜 25%；支持图像提示词（Image Prompts）和图像权重（image weights），新增提示词精简器（Prompt Shortener）和更新版 Describe。叽里咕噜这么多，整体来说，个人感觉 V8.1 和 V8 在画面细节来说差别不大。

4月15日，百度开源了 ERNIE-Image。8B 参数的 DiT 架构，一条流水线跑到底，自带轻量提示词增强器，不用自己狠憋 prompt。支持海报、漫画、多格分镜。还有 Turbo 模式砍掉了多余步骤，出图更快，Apache-2.0 协议。主打开源小参数 + 中文文字信息图 + 24GB 显卡都能跑。但毕竟小模型，整体质量也没法要求太高，可以工作流辅助和后期优化。8B + Apache-2.0 + 消费级显卡能跑，图片生成这个能力的边际成本打下来了。

4月21日，OpenAI 官方发布 ChatGPT Images 2.0，图片模型王冠易主。前面这句是我的个人看法，虽然在有的方向它还有缺点，但总体确实极为能打了。设计师又被各路专家问候了一番职业规划，真是悲喜交加。ChatGPT Images 2.0 支持更强文本渲染、多语言、复杂指令、真实世界知识、编辑能力、信息图、海报、漫画、多图一致性；并且强调“思考后生成”；在设计与信息图方面再次遥遥领先。感兴趣可以看看这篇

ChatGPT Images 2.0 还有一个杀手锏在入口上。它长在全球用户量最大的 AI 对话产品里，此外 Codex 里也内置了。用户不需要多学任何东西、不需要迁移到任何新平台。对其他图片模型来说，竞争维度都不一样，你光卷模型，人家还可以卷分发。这也是为什么我后面说图片模型不会简单赢者通吃，但入口级模型和管线级模型各有胜算的原因。

4月26日，OpenAI 正式停用 Sora Web 和 App 体验，仅保留 API 过渡接入，其 API 也将在 9 月 24 日停用。还记得 Sora 初现带给我们的震撼与冲击，没想到时代的眼泪也来得这么猝不及防。与之相反，一个月后谷歌把 Gemini Omni 铺满 Gemini App、Flow、YouTube Shorts 三条线，这怎么不算消费端视频的入口之争呢。

4月27日，阿里团队 HappyHorse 1.0 limited beta 部分开放。面向电影级视频生成，支持文生视频与首帧图生视频。支持最长 15 秒、720p/1080p、多尺寸输出。

5月份

5月5日，Luma AI 发布 Uni-1.1 API，把 Uni 系列图像模型开放给开发者和企业工作流。Luma 也走向了图像、视频、agent 三层架构的综合性创意平台。

5月19日至20日，Google I/O 2026 大会上，谷歌正式发布 Gemini Omni，首发版本为 Gemini Omni Flash。“从任意输入创造任意内容，从视频开始”；谷歌自己给的比喻更直白：“就像 Nano Banana，但是给视频用的”。支持文字、图片、音频、视频任意组合输入，核心卖点是对话式视频编辑。每一句指令叠在上一句上，角色一致性、物理逻辑都能保持。刚到国内时反响有些平平，毕竟 Seedance 2.0 珠玉在前，大家肾上腺素都快被掏空了。最近它火了一波，我们可能刷到过的视频局部修改，或者带有自己人物的纸片拼贴片头动画，可能是发现它的人物一致性和局部修改能力真的强，玩法就很多了。

这条我多说两句。首先，从纯生成画质看，当时的独立评测普遍认为 Seedance 2.0 仍然领先，而 Omni 的重点很清楚，就是把“来回对话能不能改”做好。加上它一口气铺满三条分发线，这和 ChatGPT Images 2.0 是同一个玩法，卷入口。另外，谷歌在发布会上明确表示“修改视频里人物说话内容”这个功能暂时不做，想用自己的脸做数字分身，得先录一段念随机数字的视频做防伪。这条红线是厂商主动画的。对照 2 月 Seedance 被动卷入版权争议，能清楚看到半年之内，合规，也已经变成了产品设计的一部分。

5月21日，Runway 也在视频编辑能力上发力，发布 Aleph 2.0 和 Edit Studio。Runway Aleph 2.0（官方说明是旗舰 in-context video editing model 的升级）编辑单帧即可将修改扩散至整段视频，未要求改动的内容保持原样；支持最长 30 秒、1080p 素材与多镜头连续片段。适合改服装、场景、绿幕、空镜底板（把画面里的人物、道具等前景元素去掉，只留下干净的背景）和局部替换。但是可控性还相当有待提升，复杂长片稳定性也不太行，成本也高。卷生成 Runway 胜算不明朗，修改已有素材也可能是更有潜力的市场，毕竟世界上已拍摄的视频远多于要生成的视频。

6月份

6月3日，Ideogram 4.0 图片模型开源。与其说图片模型不如说它是设计模型，设计图生成能力是真不错。9.3B 参数单流 DiT 架构，开放权重、支持商业许可。核心发力方向明确，面向设计生产场景，强化文字渲染、层级化生成、结构化 JSON prompt 控制，支持 2K 输出与品牌设计工作流。可以和 Qwen-Image-2.0、ERNIE-Image、FLUX 等一起放在文字与设计图像模型里掰手腕。JSON prompt 控制这个也很好，模型的输入从自然语言变成结构化数据。不过审美更西化，可能不那么符合国内主流审美。

6月11日，Midjourney 将默认模型从 V7 更新为 V8.1。

6月17日，美图官宣了 MiracleVision V6，这同样是一款基于 MoE 架构的基座模型，支持文本、图片、视频、音频等多模态输入；强调视觉决策能力、生成质量与一致性，并支撑美图产品内大量生成请求。美图好像隐隐摸索出了另一条路：有稳定场景和真实用户作为后盾的公司，自研模型亦有出路。

6月23日，阿里云发布 HappyHorse 1.1，强调运动表现、一致性、视觉质量提升，面向专业创作者，覆盖文生视频、图生视频与视频编辑。HappyHorse-1.1-I2V 在视觉质量、动态表现和跨片段一致性上均有明显改进。

6月23日，Seedance 2.0 原生 4K 分辨率上线火山引擎。于创作者而言，这是 AI 视频迈向广告级与专业交付的又一个关键节点。4K 贵是一定的，不是赚钱的项目建议就不要用这个分辨率了。 4K 的意义重点在可交付，毕竟广告和品牌客户的验收标准里，画质细节是硬门槛，过不了这条线，前面所有的电影感都只是 demo。（FORCE 大会一手消息，我在现场(*^▽^*)）

6月30日，Google 发布 Nano Banana 2 Lite，并把 Gemini Omni Flash 开放给开发者。官方称 Nano Banana 2 Lite 是 Gemini Image 家族里最快、成本最低的图像模型，适合高吞吐、低延迟、批量创意草图；Gemini Omni Flash 则用于视频生成和对话式编辑，可以从文本、图像、视频输入生成或编辑视频。谷歌大半年内的图片产品序列是 Pro → 2 → 2 Lite，一路向下铺，视频则是 C 端先铺满、再开 API 。

谷歌：可能我不是最强，但用户想要什么档位我都有，我还有深渊巨入口，我拿什么输？

赢麻了，赢麻了。

补充说明

看完以上的记录以后，大家可能会觉得，怎么有些自己常用或者熟悉的模型没有出现在上面的时间轴中？这有可能是因为它们的发布时间不在今年上半年的区间内。

比如以下这些模型：

MiniMax 的 Hailuo 2.3 视频模型，发布于 2025 年 10 月，至今仍被许多创作者用于制作复杂动作和微表情，动漫风格效果也很不错，性价比很高。

美团的 LongCat 模型，发布于 2025 年 12 月，这是一个开源的中英双语图像模型，强调文本渲染、生成和编辑。

阿里的 Qwen-Image-Layered（拆图层）和 Qwen-Image-Edit（图像编辑）发布于 2025 年 12 月，目前依然在 ComfyUI、ModelScope、Hugging Face 等工作流中被频繁使用，分层编辑和文字编辑很不错。

顺便说一句，模型能“长寿”也能看出，如果能在工作流里站稳脚跟，模型的生命周期会远远长于热搜周期。

Midjourney V1 Video 视频模型，已经是去年 6 月份发布的产品了。不知道今年 Midjourney 是否还会发布新的视频模型。

最后，再补一个悬念， 6 月 FORCE 大会上火山引擎已经预告了 Seedance 2.5 视频模型和 Seedream 5.0 Pro 图片模型。

Seedance 2.5 视频模型，直指“多素材导演工作流”，主打最长30 秒单段原生视频、最多可以50 个全模态素材联合生成、一致性局部编辑。预告还看到了它会先生成3D白模再生成。期待能早日体验。

Seedream 5.0 Pro，将会主打交互式的精准编辑、并且可以多图层分离，也可以生成高密度信息图了，可以原生生成多语种文字，还可以直出可编辑分层设计图。相信这些对于设计方向的朋友会非常有用，因为它现在已经从单纯的图片输出向着可编辑的设计稿以及信息图去靠近了。

7 月真是值得期待啊。

下半年会怎样？

可以看到，2026 年上半年图片与视频模型，不再是单点生成能力的竞争，更多的是往生产系统去迁移，进入真实创作流程。图片模型从审美生成走向资产生产，视频模型从短片 demo 走向可控镜头，二者开始在同一个生产链路里合流。

分开讨论图片与视频模型之前，先说一个贯穿两边的观察。回看上半年的发布词，出现频率最高的关键词已从“更强”换成了“更快、更便宜”：Ray 3.14 快 4 倍便宜 3 倍，Nano Banana 2 主打不肉痛，V8.1 快 3 倍便宜 3 倍，Nano Banana 2 Lite 干脆定位相对成本最低。一个行业集体从卷质量转向卷成本，通常意味着这一代技术的 S 曲线正在进入平台期 ——（人工输入破折号备注）质量的边际提升越来越贵，竞争逐步转移到推理经济学上了。

从审美生成到视觉资产

图片模型的发展到瓶颈了吗？怎么会，还有很多方向可以卷啊。

图片模型的下一步，可能是更高清晰度的画质、更有辨识度的人像、更强的世界知识物理理解、更杰出的审美、更精确的文字细节、更多元的风格、更优秀的设计等等。

不过，有一点也比较明显。上半年几乎所有图片模型都在卷“文字渲染”，从 GLM-Image 到 Qwen-Image-2.0 到 ERNIE-Image 到 Ideogram 4.0 到 ChatGPT Images 2.0，无一例外。为什么大家不约而同盯着这个看起来很小的能力？因为文字渲染是“可控性”的最显示表现，评判好不好比审美客观。一个模型能不能把图片中的汉字一笔不差地写对，直接反映了它对像素的控制精度到了什么程度。文字是唯一一种“差一点就是错”的图像内容。画面美不美好不好可以见仁见智，字写错了就是写错了。谁最先把文字彻底做稳，谁就向所有 B 端客户证明了：我的输出可验收哎！

用户：爱了。

如果真的出现六边形模型，会走向赢者通吃的局面吗？

我的个人观点，图片模型下一阶段不会简单赢者通吃。强通用模型会继续占据高质量入口，但低价高速模型、垂直商业模型、文字设计模型等都会继续存在。真实生产里，人们要的不只是一张最好看的图，便宜、快、可控、可编辑、能交付等等都是重要考虑因素。

更具体一点，我认为格局可能会分成三层：入口层（长在超级应用里的模型，赢在分发不赢在参数）、管线层（被写进工作流和 API 的模型，赢在稳定和可控）、廉价层（把边际成本打到地板的模型，量大管饱使劲蹬也不心疼）。三层的赢家可以是不同的公司，甚至同一条生产链路里同时用到三层：草图用廉价层，正稿用管线层，临时需求丢给入口层。

从惊艳片段到更可控镜头

从今年上半年就可以感觉到，视频模型也已经进入下一阶段，短片 Demo 不过是基础操作，主流视频模型早已开始了多参考、多镜头、原生音频、更高画质、参考驱动、视频编辑精细化与后期等方向的进化，逐步走向更长时、更稳、更可控、更可交付。

这里我想把上半年的信号做个小结：

第一，输入方式的变化。从 Veo 的 Ingredients，到 Seedance 的 9 图 3 视频 3 音频，再到 Vidu 的 1-7 张参考图，视频模型的接口正在从“文字描述”变成“素材投喂”。创作者可以从“写 prompt”迁移到“备素材、管资产”这个方向来完成视频生成，而这其实是传统影视制片一直在做的事。有点矛盾但又合理的是，AI 视频把老工作流的方式加入进去，又以新的方式加速了创意的产出。

第二，合规会影响模型最终呈现给用户的能力。Seedance 2.0 发布即召回削弱这件事，给全行业画了一条线：模型越强，IP、肖像、区域监管的约束就咬得越紧。下半年，视频模型会更能打，能早早在这方面找到最优的解决方式，做好版权素材授权、可溯源水印、真人授权体系，这些有点枯燥的基础设施，可能也将成为决定胜负的关键。

真正使用它的用户会用它做什么？真实创作进程中，它可能会卡在哪里？而卡在哪里的痛点，就是视频模型下一步进化的方向。

Agent：调度与扩宽能力边界

模型都成长起来了，可以把 Agent 当自己的中层，让它调兵遣将，节省我们自己的时间了。

底层模型越强，Agent 才越好用；底层模型不行的时候，Agent 只是在自动化制造废片。

Agent 最大的作用，是通过更好的调度来放大模型的价值。决定作品上限的，依然是创作者本身的能力、图片模型的审美、文字、编辑能力，以及视频模型的运动、物理、一致性和音画同步等。这些底层能力已经足够强，Agent 才能通过更好的调度，把它们组织成更高效的创意工作流。

但 Agent 工作模式成为常态可能还会带来一个后果：当模型的调用方是 Agent，模型就从产品退化成了零件。对模型公司来说，进了 Agent 的调度池，调用量会很大；但同时，你和竞品之间只隔着一行配置文件的距离，你没竞品好用，用户忠诚度嘎巴一下归零。在成熟的创意 Agent 平台，模型之间的竞争会比现在残酷得多，也诚实得多。

小结

唯一不变的，就是变化一直在发生。过去我们更关心模型能不能生成一张好看的图、一段惊艳的视频；现在我们会越来越关心，它能不能稳定参与真实创作：能不能保持角色一致，能不能接住多轮任务、复杂修改，能不能做首帧和关键帧，能不能进入广告、短剧、IP 角色、信息图这些具体场景里，最后真的交付出好东西。

上半年只是一个节点。下半年如果还有新的模型、新的工作流和新的创作方法，我也会继续边用边记录。

也欢迎大家在评论区补充你真正用过、觉得值得留下的模型！

最后感谢 Codex 在我查找资料和核对信息时做出的贡献。这期真肝啊，朋友们觉得有收获请猛猛三连鼓励一下阿真，非常感谢！

这一篇相对严谨和乏味一点，下期可能是阿真上半年的所有 Vibe Coding 工具盘点，很好玩的 o(^▽^)o

下期见(ง•̀_•́)ง

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.