![]()
是骡子是马,拉出来遛遛。
作者|景行
编辑|古廿
开启灰测后的快乐马,反而爆发了更大的口碑分歧。
一部分用户觉得它“名不副实”。在固定特写、简单场景里,快乐马能做出接近实拍的画面质感,人物细节、材质纹理、环境氛围都足够在线;但一旦进入复杂运动、镜头调度和物理交互,它的短板就会迅速暴露。
“快乐马的固定特写镜头表现出色,在简单场景下能实现接近实拍的画面水平,但一到运动镜头、物理规则理解就较为吃力,与Seedance2.0有显著差距。”有用户对「市象」表示。
类似判断也出现在机构研报中。国联民生证券列举快乐马的长短板:其在环境丰富度、空间层次、材质纹理和画面饱满度上完成度较高。但当动作复杂度提升后,模型容易出现动作理解不到位、肢体关系错乱、连贯性下降等问题。
换句话说,快乐马更像固定镜头专家,而不是成熟的动作导演。
这与它此前横空出世的姿态形成反差。4月,快乐马曾以匿名身份空降Artificial Analysis全球AI视频评测榜榜首,在文生视频、图生视频两大赛道力压字节Seedance 2.0。彼时,它被视作AI视频赛道的神秘黑马,甚至一度被外界期待为新的SOTA变量。
但灰测之后,神秘感很快被真实使用体验稀释。
“我试了三个视频。”有评测用户对「市象」表示:“可灵有一些小问题,但多抽卡几次无伤大雅,Seedance2.0基本准确,快乐马结果和我要的基本不沾边。”
也有用户表示,快乐马与Seedance训练逻辑不同,使用时不宜套用Seedance提示词。使用得当的前提下,快乐马在人物细节、场景渲染上能力仍然出众。
相较侧重骨骼绑定和人物演出精细度的可灵,侧重画面叙事与镜头调度的Seedance 2.0,快乐马的模型特征是高效率、高质量、高可控、低成本,优势场景为批量生产短视频、广告片、口播视频等,而不是承接普通用户对“AI电影导演”的全部想象。
从技术路线到定价区间,快乐马的战略目标都不是做一款全面碾压竞品的SOTA视频模型,而是瞄准量产短片市场,成为一款高性价比的商业内容工具。
所以,快乐马的口碑落差并不难理解。普通用户想要的是一个能理解复杂剧情、调度镜头、完成动作叙事的AI导演;阿里想要的,则更像一条能稳定出片、持续消耗、面向商家交付的广告片流水线。
只想干活的快乐马,确实很难让每个普通用户都快乐。那些对它产生心理落差的人,某种程度上是在擅自期待,也在擅自失望。
![]()
盲测第一失灵了?
最能展现快乐马与Seedance 2.0产品哲学差距的,在于模型架构。
从技术路径看,两者选择了完全不同的路线。Seedance 2.0采用双分支扩散变换器架构,快乐马则采用单流 Transformer 架构。前者像一支分工明确的电影剧组,后者是一条高效运转的内容生产线。
如果把视频模型理解成电影制作,Seedance 2.0 的思路更接近“专业剧组协作”:一条分支负责视频生成,另一条分支负责音频生成,包括背景音乐、人物对白和环境音效。
相比此前视频生成模型“先生成视频、再叠加音轨”的主流方案,Seedance 2.0的突破在于,为两个制作组安排了统一“导演”,通过这种跨模态对齐机制,实现画面与声音在生成过程中保持更高程度的一致性。
快乐马走的是另一条路,单个团队全包。单流Transformer架构把音频、视频、文字打包成一个任务一口气生成,胜在生成效率更高,同时能保障音画同步精细度。
劣势是一个团队的上限就摆在那里。快乐马用一个架构同时处理文本、图像、视频和音频四种模态的信息,代价是放弃复杂任务下的稳定性。
![]()
从模型参数指标来看,阿里快乐马为150亿,而字节Seedance 2.0为220亿。在复杂长视频工程中,快乐马单架构的能力稍显不足,这也是快乐马的市场口碑先高后低的原因之一。
在Artificial Analysis评测中,用户仅通过盲测方式对同一提示词,不同模型生成结果进行投票。快乐马拿下冠军席位,意味着在画面精细度、音视频同步等能力上已经达到行业顶尖水平。
但在用户实测中,一旦遇到镜头运动、角色一致性、分镜头设计等专业要求,快乐马的短板很快就暴露出来。盲测看的是“这一条视频够不够惊艳”,真实使用中会放大“能不能稳定复现”的差距。
阿里选择这条技术路线的原因或许是追求极致效率。相较组建一个庞大剧组,一个团队单打独斗可实现省算力、提推理速度两大目标。
按照官方口径,快乐马支持七种语言的精准唇形匹配,不仅降低后期成本,同时推理速度为行业主流模型的2至3倍,单张H100显卡生成5秒1080P视频仅需38秒,算力消耗降低约六成。
这让快乐马有能力在定价策略上,猛挖Seedance 2.0的墙角。
从目前市场的公开信息来看,纯视频输出价格方面,Seedance 2.0约为1元/秒,而快乐马720P、1080P视频为0.9元/秒、1.6元/秒,包月价格下降至0.44元/秒、0.78元/秒。官方宣传,快乐马拥有突出的性价比优势。
高效、低价、短平快,多要素综合起来,才是一个真实的快乐马。看起来更像是擅长拉货且性价比拉满的驴,而非此前把用户心理预期拉满,性能碾压同类的汗血宝马。
![]()
吃草挤奶才是阿里想要的AI味
相比做一款视频SOTA模型,快乐马似乎更关注如何解决商家痛点,这也是快乐马负责人对AI需求理解的起点。
“在多模态生成方面,AIGC正以前所未有的效率重塑电商场景的内容生态。”在 CNCC2025大会上,快乐马团队负责人、原淘天集团算法技术负责人郑波曾这样描述淘宝对多模态生成的理解。
他举了一个很典型的电商场景:过去商家展示一条裙子,商品页里往往只有几张平铺图、模特图;现在可以让虚拟模特在不同场景中完成摆拍,也可以把图片生成视频讲解,进一步拼接成一条完整的带货视频。
![]()
尽管彼时尚未有快乐马,但是这段理解其实点明了阿里AI产品的味道。
快乐马诞生于淘天旗下原未来生活实验室,团队聚焦的命题,就是如何利用AI技术降低电商内容的生产门槛。这一基因决定了,快乐马的技术路线与可灵、即梦不同,即便后续划入ATH事业群,来自淘天系的电商内容化需求,依然是它最初的底色。
郑波介绍过的淘宝星辰视频生成模型3.0,与快乐马可以被视作阿里电商内容化的两条战线:淘宝星辰更偏向解决商家图生视频、商品视频化的直接需求;快乐马则探索电商创意广告的大批量生成方案。
从首批邀请客户画像,也能看到快乐马的增长路径。
4月27日ATH宣布,快乐马通过阿里云百炼平台逐步开放API测试,首批邀测对象为企业级客户。
对电商品牌而言需求不是生成电影级的复杂视频,而是更实际的问题——口播音画同步是否精确,图片生成视频是否还原,以及视频制作成本能否碾压传统拍摄模式?
这恰好是快乐马的优势区间。
在产品页官方描述中,快乐马擅长以电影级光影质感直出专业画面,运镜稳定转场自然,人物表情细腻动作真实,中近景叙事清晰适配剧情与对话,深度适配广告、电商、短漫剧与社媒创意等生产场景。
以口播支持能力为例,快乐马支持中英日韩德法粤七种语言的音画同步匹配,这也是快乐马的核心卖点之一,这无疑是电商商家的刚需诉求。
在商品演示场景下,画面不需要反复运镜,不需要展示多复杂的物理运动,但需要展示口播声音与口型同步演出,人物动作与音效协调无延迟。
这曾是淘天未来生活实验室的重点技术方向。郑波表示,淘宝全模态大模型TStars-Omni重点打磨了语音识别能力,尤其是电商场景的用户语音,在语音合成方面优化了情感合成、音色克隆等能力,以适配不同场景的配音需求。
千问官方则对快乐马与通义万相的特征,给出了精确结论——前者胜在自然稳定,镜头更有戏,在视听精度上建立护城河;后者胜在叙事与运动表现。
![]()
这让快乐马也更契合阿里巴巴ATH事业群的核心KPI——以token货币化为核心,创造token使用场景。
与ATH当前力推的商家智能体近似,快乐马不需要做一款惊艳市场的通用爆款视频模型,而是需要深入电商场景做基础设施,让商家像消耗水电一样自然使用AI内容供给,如文生视频、图生视频,将产品做成符合要求的动态画面。
但这并不意味着,快乐马的目光仅限于电商场景。
在阿里云产品页,快乐马展示了动漫创作、电影级分镜创作、皮克斯动画电影风格、赛博朋克风格等不同应用场景。面向商业广告场景特化,并不影响快乐马向短剧、动漫剧等场景进发的决心。
而围绕快乐马展开的用户争议,更多来自评测用户的擅自期待,擅自失望。
从OpenAI的Sora带火视频模型至今,AI视频赛道正从追求通用模型转向专用模型。
OpenAI在上月宣布停止独立的Sora服务,原因便在于无力驾驭这条算力吞金兽,不仅无力维护稳定付费客群,还深陷版权侵权压力,在冲刺IPO背景下,有必要将经营重心转向GPT等核心业务。
到国产视频模型领域,各头部产品已经出现明显分化。
快手可灵聚焦在人物表演上,追求极致的复杂肢体动作表现力;字节Seedance2.0关注如何让AI视频更接近电影,在多镜头、分镜设计、画面叙事能力上做出突破。
快乐马则思考如何让AI视频更适配工业化生产,让推理速度、token定价、音画能力多要素实现最优性价比,成为商家采购首选。
这意味着AI视频变得更加成熟,行业开始从过去田径赛事式的跑分游戏,迈向场景与生态的竞争,谁能融入客户需求,谁就能走在前列。
![]()
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.