网易首页 > 网易号 > 正文 申请入驻

从 SD 到 Wan2.5-Preview,AI 视频 2025 质变启示录

0
分享至


AI 视频创作,从极客专属到人人可用,一共需要几步?


作者|Cynthia

编辑|郑玄

全民玩梗的狂欢,再一次在 AI 视频领域上演。

最大的时代红利,属于今年四季度发布的中美两大明星产品,OpenAI 的 Sora 2 与阿里的 Wan2.5-Preview。

其中,Sora 2 的登场堪称一场教科书级的营销战役。熟悉的邀请码机制再次奏效,用户为了获得一个入场券除了需要购买 GPT 的会员之外,甚至还在二手平台再花几十美金购买邀请码。更绝的是,它把自己变成了一个 AI 版抖音,用户只需上传一张照片,就能生成自己和奥特曼对话的魔性视频。这种把用户变成主角的设计,让 Sora App 首周下载量直冲 62.7 万次,甚至超过了当年的 ChatGPT。

大洋彼岸,Wan2.5-Preview 则以另一种方式在各大社交媒体刷屏。一夜之间,抖音、小红书上的 AI 小猫开始集体说着「我爱妈妈」然后炒着三菜一汤等主人下班,画面中的光线、格局、小猫表情细腻到令人发指之外,甚至炒菜的锅气与油烟这样的细节也完全到位。

可以说,正是这两大模型的出现,让 AI 视频一夜之间从技术圈极客专属推向全民热潮。

那么,这一次 AI 视频 2025 年破圈的关键是什么?Wan2.5-Preview 在内的一众最新模型做对了什么?与此同时,这次的 AI 视频浪潮又会火多久?

一定程度上,这一波 AI 视频模型热潮,正是大模型落地从技术突破到改变世界交出的标准答案范本。

01

AI 视频为什么又火了

Wan2.5-Preview 与 Sora 2 的爆发绝非偶然,而是技术积累到一定程度的必然结果。

而要理解这次 AI 视频的爆发,就得先看懂历史上的三起两落。

行业的第一次爆发发生在 2022-2023 年期间,那时候借助 U - Net、DDPM 等经典生成架构,DALL - E 2(OpenAI)、Midjourney、Stable Diffusion(Stability AI)、ControlNet、Gen - 2(Runway)、万相 1.0 等模型通过以文生图让人们第一次看到了 AI 创作的潜力。

但很快,这些模型就因为六指怪、表情呆板等问题被喷上热搜。模型随之在 2024 年前后,进入 Scaling 阶段,通过采用 DiT、Flow Matching 等新技术,结合视觉语言模型(VLM)的图像描述能力,生成更逼真的图片,图生视频成为可能,这一阶段,Sora(OpenAI)、可灵 1.0/1.6、海螺 01、Flux 1.1、万相 2.0/2.1 陆续走上台前。但这一阶段,AI 生成的视频,依然存在时间短、音画不同步、无法执行复杂动作的弊病。

直到 2025 年,随着 LLM(大语言模型)与 Diffusion(扩散模型)的深度融合,AI 视频迎来了质的飞跃。通过引入视觉 CoT(思维链),模型从单纯的视觉渲染转向任务导向的智能决策,不仅能支持多模态交互,还能解决复杂的视觉 + 语言任务。Gemini 2.0 Flash(谷歌)、GPT - 4o 生图(OpenAI)、可灵 2.0、Veo 3、Seedance 1.0、豆包、万相 2.2、Nano Banana(谷歌)相继爆火。

四年间,模型千变万化,但每次 AI 视觉产品的爆火的背后,都离不开两大方面的进步:

门槛降低以及效果提升。

早期以 SD 为代表的工具,是典型的极客专属——CFG scale 数值要反复调试,数十个节点的连接逻辑能劝退 90% 的用户;生成内容更是阴间赛博风,除了 P 站上粗制滥造的成人内容,几乎没人愿意盯着画面里突然冒出两张脸、音画完全不同步的视频超过一分钟。

反观当下的热门模型,无论是计划做 AI 时代抖音的 Sora 2,还是社交媒体刷屏的 Wan2.5-Preview,都踩中了同一个关键点:高质量的同时,把门槛降到人人可用。

首先是针对过去 AI 模型的赛博审丑,Wan2.5-Preview 通过人类反馈的强化学习(RLHF)把用户对画面质感、动态效果、指令匹配度的反馈用于优化模型,彻底摆脱丑且诡异的标签。

而要达成以上效果,用户不需要懂任何技术,只要能把自己脑海中的画面,用一段简单的提示词说出来,就能生成栩栩如生的视频。

比如,这是一个使用 Wan2.5-Preview 生成的高赞视频。

提示词:黄昏,逆光,侧光,柔光,高对比度,中景,中心构图,干净的单人镜头,暖色调。年轻白人男子站在树林中,阳光透过树叶在他发丝上形成金色光晕。他穿着浅色衬衫,微风吹动他的头发和衣领,光线随着他的动作在脸上流动。背景虚化,远处是斑驳的光影和柔和的树影,镜头聚焦于他微微抬起的目光,眼神清澈且带有情绪。

视频链接:

https://tongyi.aliyun.com/wan/work-detail/4ce663a31fbc4c5f859a8d8d6fbf23eb?resourceId=4ce663a31fbc4c5f859a8d8d6fbf23eb

可以看到,画面中不仅人物神态动作自然,空气中的尘埃,树林中的光线也都十分还原,去掉右下角的 logo,几乎无法分辨是否实拍。

在此基础上我们再加点难度,画面更复杂一点,主体变成有精细毛发细节的布偶猫,然后加入动作、神态以及抑扬顿挫的语调:

提示词:电影感仰拍镜头,让主体显得很有权势。在一间奢华的客厅里,一只雍容华贵的布 偶猫坐在一张王座般的猫爬架上。它用居高临下、充满审判意味的蓝色眼睛俯视着镜头。它缓缓抬起一只毛茸茸的爪子,以一种极度鄙视的表情指向观众,质问说:「嗯?那我再问你,我生成视频的音频不自然吗?回答我!Look in my eyes!Tell me, why?Why baby why?」。戏剧性的华丽光影,浅景深,超精细的毛发细节,照片级真实感。


可以看到多个升级版要求多管齐下,但整体画面的质量依然没有下降,甚至就连环境中的光线角度,光源反射细节都完美还原。

当然,这种低门槛与高质量,只是 Wan2.5-Preview 火起来的基础,在用户体验细节上,Wan2.5-Preview 还做了更多的探索与尝试。

02

如何定义体验 ready 的视频模型

AI 模型的技术参数再漂亮,最终要落地到用户体验上。

过去很多 AI 工具的通病是碎片化——文生图一个模型、文生视频一个工具、图生视频又要换平台,用户为了实现一个创意,得在多个工具间反复切换,生成、调整、合成的繁琐步骤,早已磨掉了创作热情。

更不用说,过去做一条电商营销视频,用户要先找模型生成画面,再用另一个工具做音频,最后用第三方软件合成,耗时不说,还容易出现音画错位。最后为了节约拍摄成本,不得不再招聘一个成本更高的算法工程师搭建业务的 workflow。

seaart.ai 的案例很有代表性。这家 2023 年 4 月成立的公司,专注图像和视频生成,全球活跃用户超 2500 万,稳居 AIGC web 产品 TOP 50。他们采访过一位澳大利亚理发师,对方从小的梦想是当画家,却为生活拿起了剪刀。现在他每天最开心的时刻,就是下班用 seaart.ai(海艺)创作——过去用画笔无法表达的想法,现在用文字就能生成画面,「海艺成了安放灵魂和梦想的地方」。

之所以选择海艺,正是因为海艺集成像 Wan2.5-Preview 这样的模型,解决了过去 AI 视觉生成用户体验割裂的痛点。

在 Wan2.5-Preview,生成 10 秒视频时,系统会自动匹配人声、环境音效和背景音乐,甚至能让小猫的口型和「我爱妈妈」的台词对应上,全程无需人工干预。

在这背后,则是 Wan2.5-Preview 的统一框架设计:Wan2.5-Preview 没有像 SD 那样堆砌独立模型,而是把文本、图像、视频、音频的理解与生成装进了同一个框架里。底层用文本分词器、图像 / 视频编码器、音频编码器分别拆解不同类型的信息;核心用多模态 Transformer 做大脑,实现跨模态信息的深度融合;输出层直接支持文本、图像、视频、音频的生成,借助多模态对齐能力,用户不再需要在多个工具间切换。

最重要的是,用过 AI 的人都知道,一次性生成满意的内容几乎不可能。但是对图像和视频二次编辑又往往非常困难。Wan2.5-Preview 在这方面做了针对性优化:

视频上,Wan2.5-Preview 增强了复杂指令精准执行能力:能理解运镜语言(如推、拉、摇、移)及连续变化指令,无需多次调整;细节优化:强化图生视频的元素 ID 一致性(即生成过程中保持人物、物体等核心元素不丢失),同时支持通用音频驱动视频生成。

在生图上,AI 的生图质量今年行业基本解决,但是对于图片中加文字尤其是中文这样的需求,就很容易变成鬼画符,更不用提生成图表。Wan2.5-Preview 则不仅支持稳定生成中文、英文等文字,甚至能直接生成图表;还能通过文字指令一键换装、改风格,编辑时核心元素不会变形。

正是这些体验细节的打磨,让海艺平台上的用户用 Wan2.5-Preview 生成的视频数突破 500 万条,创意的表达就像说话一样自然。

03

技术到商业,如何加速

技术 ready、体验 ready 的 AI 产品不少,但很多都停留在叫好不叫座的阶段。

Wan2.5-Preview 的聪明之处在于,它在做好产品的同时,也打造了一整套完善的商业化体系。

这套完整商业化体系的最底层,是阿里云的算力支持,与模型软硬一体形成生态护城河。中间层则是阿里云百炼这样的模型开发服务平台,让用户一键部署大模型不再是天方夜谭;最顶层的模型侧,也给足了用户选择。

Wan2.5-Preview 给为例,不同用户的需求天差地别:有人只是想尝鲜做个 5 秒短镜头,有人要做 10 秒的抖音爆款;有人追求 1080P 电影级画质,有人觉得 720P 够用就行。

Wan2.5-Preview 选择,5 秒、10 秒,画质上,提供 480P、720P、1080P 三种选择,用户可以根据预算和用途自由切换。

在此基础上,Wan2.5-Preview 没有掩饰自己对商业化以及算清成本账的野心。在最近的飞天发布时刻上 Wan2.5-Preview 正式宣布商业化,并给出了明确且足够优惠的收费标准:

国内:1080P 1 元 / 秒,720P 0.6 元 / 秒,480P 0.3 元 / 秒;

海外:1080P 0.15 美元 / 秒,720P 0.1 美元 / 秒,480P 0.05 美元 / 秒。

形成对比,Sora 2 生成视频需要 0.1-0.5 美元 / 秒,国内可灵 2.0 收费标准为 0.5 元 / 秒,Wan2.5-Preview 属于同等内容质量产品中,定价也极具吸引力的一档。

而这种定价方式精准击中了不同用户的痛点:

对短视频团队、广告公司等专业用户,清晰的定价能让他们准确核算成本,比 SD 免费但需自己承担服务器成本更划算;

对普通尝鲜用户,按秒收费意味着花几块钱就能试玩,不会被高昂的套餐费吓跑。

建立在丰富的选择与定价标准之上,通义万相的商业生态也已经初步跑通,WaveSpeedAI 就是最好的案例。

这是一家专注多模态 AI 生成的平台型公司,也是全球第一个上线 Wan2.5 系列模型的平台。

围绕怎么用好 Wan2.5-Preview,WaveSpeedAI 的做法很聪明:它根据用户的价格敏感度,按照分辨率、生成时长、加速程度梯度收费,此外,根据模型的不同,提供了分层解决方案:

最低价区间:用 Wan2.2 的快速推理版本,满足预算有限的用户;

中间层:用优化后的 Wan2.2 开源模型,平衡成本和质量;

高端层:用 Wan2.5 的快速版和普通版,服务追求高质量的用户;

在此基础上,WaveSpeedAI 还拓展了数字人业务,在对口型的基础上,实现了更丰富的肢体动作和表情控制。目前,WaveSpeedAI 借助 Wan2.5 生成的视频数已突破 1000 万条。

以上只是个例,据云栖大会官宣数据,通义万相家族已整合 10 多种视觉创作能力,累计生成 3.9 亿张图片和 7000 万个视频,成为国内主流的 AI 视觉创作工具。

04

尾声

AI 视频的故事远没到结尾。

技术侧,现在的模型依然有短板:内容生成时长不够长、细节不够细腻、长视频的一致性问题还没完全解决……

但不可否认的是,无论是 Sora 2 的 AI Tik Tok 野心,还是 Wan2.5-Preview 的 行业侧深耕,都让 AI 视觉生成跨过了技术到产品的鸿沟。

在这个过程中,技术先进固然重要,但能把技术变成用户愿意用、愿意付费的产品,让行业真正尝到 SOP 缩短,效率增加,用户体验提升,才是真正的胜负手。

*头图来源:通义万相Wan

本文为极客公园原创文章,转载请联系极客君微信 geekparkGO

AI 正在重塑人机交互的每一个维度,大模型的发展带来了新的交互方式,也带来了新的硬件机会。手机还会是用户最重要的个人计算设备吗?手机之外的硬件有怎样的机会?AI 时代会诞生新的安卓系统吗?

10 月 30 日(周四)20:00,极客公园视频号直播间,极客公园创始人 & 总裁张鹏将与光帆科技创始人董红光展开一场关于「AI 时代的交互与硬件」的深入对话。



特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
律师行业崩了,近七成同行活得像行尸走肉

律师行业崩了,近七成同行活得像行尸走肉

麦小柒
2025-10-31 20:53:15
英超下课第4人!0-3惨败 稳居倒数第1 中国老板忍无可忍

英超下课第4人!0-3惨败 稳居倒数第1 中国老板忍无可忍

叶青足球世界
2025-11-02 20:49:25
工信部突然鼓励燃油车?给燃油车补贴,释放什么信号?

工信部突然鼓励燃油车?给燃油车补贴,释放什么信号?

大道微言
2025-11-01 08:58:16
率泰州爆冷夺苏超!39岁女足队长回家受热捧 邻居拉横幅+敲锣打鼓

率泰州爆冷夺苏超!39岁女足队长回家受热捧 邻居拉横幅+敲锣打鼓

我爱英超
2025-11-02 18:03:00
在折腾人这件事上,他们一向是炉火纯青的!

在折腾人这件事上,他们一向是炉火纯青的!

胖胖说他不胖
2025-11-02 14:00:14
全红婵报名事件惹争议!复出变胖夺冠后,才知其放弃女单多么明智

全红婵报名事件惹争议!复出变胖夺冠后,才知其放弃女单多么明智

三十年莱斯特城球迷
2025-11-02 21:54:15
凌晨!安世中国,强烈反对,郑重声明!

凌晨!安世中国,强烈反对,郑重声明!

证券时报e公司
2025-11-02 09:22:01
中年夫妻的婚姻状态都是啥样?网友:我34,老公54,一个月八九次

中年夫妻的婚姻状态都是啥样?网友:我34,老公54,一个月八九次

解读热点事件
2025-10-24 00:20:03
为什么“战略忽悠局局长”张召忠,突然消失了,去哪里了?

为什么“战略忽悠局局长”张召忠,突然消失了,去哪里了?

混沌录
2025-11-02 17:13:10
11月2日俄乌最新:2将军被罢免

11月2日俄乌最新:2将军被罢免

西楼饮月
2025-11-02 18:38:26
57万元/平方米!深圳一别墅被神秘富豪3.65亿元“捡漏”拍下,刷新全国纪录

57万元/平方米!深圳一别墅被神秘富豪3.65亿元“捡漏”拍下,刷新全国纪录

每日经济新闻
2025-11-02 09:13:03
广东不欢迎蹭席,有网红去蹭两家都失败,称当地酒席没有备用席的

广东不欢迎蹭席,有网红去蹭两家都失败,称当地酒席没有备用席的

呼呼历史论
2025-11-01 15:20:18
上官正义举报拐卖儿童反被控制:它们不给你说法,我给你一个说法

上官正义举报拐卖儿童反被控制:它们不给你说法,我给你一个说法

律侠普法
2025-11-02 18:45:45
朴志洙:我们没有任何遗憾,已经拼尽全力了

朴志洙:我们没有任何遗憾,已经拼尽全力了

懂球帝
2025-11-02 18:04:05
嗨爆了!法国赛氛围无敌棒,莫雷加德客场4-1完胜勒布伦打进决赛

嗨爆了!法国赛氛围无敌棒,莫雷加德客场4-1完胜勒布伦打进决赛

乒谈
2025-11-02 21:28:17
“上午立冬,冻死牛;下午立冬,暖烘烘”,2025年立冬是几点?

“上午立冬,冻死牛;下午立冬,暖烘烘”,2025年立冬是几点?

阿龙美食记
2025-10-30 09:52:04
村民众筹30万元欲硬化通村路,10年间10人去世都未等来动工,街道办称尚在争取上级补助资金

村民众筹30万元欲硬化通村路,10年间10人去世都未等来动工,街道办称尚在争取上级补助资金

大风新闻
2025-11-02 10:04:07
上海第二大,浦东最大商场要来了!剧透:首店阵容很强,来头蛮大!

上海第二大,浦东最大商场要来了!剧透:首店阵容很强,来头蛮大!

新民晚报
2025-11-02 14:05:48
清华姚班毕业天才、量化大佬出新书:《ren妻约会指南》

清华姚班毕业天才、量化大佬出新书:《ren妻约会指南》

吃瓜体
2025-11-02 16:31:48
“初三女生在校被同学殴打13次,后确诊精神分裂”新进展:额尔古纳市启动全面复查

“初三女生在校被同学殴打13次,后确诊精神分裂”新进展:额尔古纳市启动全面复查

大风新闻
2025-11-02 14:45:02
2025-11-03 06:15:00
极客公园
极客公园
让最棒的创新成为头条
11579文章数 78705关注度
往期回顾 全部

科技要闻

10月零跑突破7万辆,小鹏、蔚来超4万辆

头条要闻

马来西亚首富之子买上海大平层 449平米1.17亿元

头条要闻

马来西亚首富之子买上海大平层 449平米1.17亿元

体育要闻

这个日本人,凭啥值3.25亿美元?

娱乐要闻

陈道明被王家卫说他是阴阳同体的极品

财经要闻

段永平捐了1500万元茅台股票!本人回应

汽车要闻

神龙汽车推出“发动机终身质保”政策

态度原创

健康
亲子
旅游
数码
公开课

核磁VS肌骨超声,谁更胜一筹?

亲子要闻

我发现一个带娃永远不生气的理论

旅游要闻

这道金黄的绝美秋景里藏着古韵京华

数码要闻

麒麟9030处理器突然曝光:1+4+4六核狂飙,可惜工艺不详!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版