先抛问题:AI视频生成的「两难」,它能解吗?
现在做 AI 视频,要么像 Sora 2 追求 “大而全”,但生成对话场景时,口型、表情常跟台词 “脱节”,像机械念稿;要么想做自然的对话视频,却要等很久、付高价 —— 这是很多数字人、在线教育从业者的痛点。
![]()
直到 Gaga 上线,这个矛盾似乎有了新答案:用户只需要一张照片、一段台词,3 分钟就能拿到带声音、表情、背景音的完整视频,而且现在不用邀请码,直接访问 gaga.art 就能用,还限时免费。
核心差异:不贪“全场景”,只盯“上半身对话场景”
Gaga 没走 Sora 2 “覆盖全场景” 的路,而是把所有精力放在 “上半身聚焦的对话演绎” 上 —— 这个细分场景,恰恰是数字人互动、虚拟主播播报、在线课程讲解的核心需求(这类场景关键在于面部表情与语言的配合,无需完整全身呈现)。
![]()
它的优势很具体:生成的视频里,口型能精准匹配台词节奏,音色不会有“电子感”,连皱眉、微笑这些细微表情,都能跟着情绪走。不是简单的 “TTS(文本转语音)+ 嘴型动画”,更像 “真人在演”—— 这也是它在高质量对话场景里,比其他方案更实用的关键。
成本优势:专注,才是“降价”的底气
AI 视频贵,很大原因是模型要覆盖太多场景,计算成本高。但 Gaga 因为只聚焦 “上半身对话演绎”,不用为 “生成全景视频”“模拟复杂动作” 消耗算力,生成成本直接降到了 Sora、Veo 等模型的 1/20 以内。
更关键的是未来:团队计划开放 API,届时价格会比 Sora、Veo 便宜一个数量级。对需要批量做对话视频的团队来说,这不是 “省一点”,而是 “能把之前做不起的事,变成常规操作”。
团队背书:技术不是“空中楼阁”
支撑这种“专精” 思路的,是北京五道口的 Sand.AI 团队。创始人曹越是清华特奖得主,联合创始人张拯,两人都是计算机视觉顶会 ICCV 最佳论文《Swin Transformer》的核心作者 —— 这篇论文是现在很多视觉 AI 模型的基础框架,技术硬实力有公开成果可查。
而且团队之前已经开源过高质量自回归视频模型 Magi-1,不是 “第一次做视频 AI”,这种 “有过往积累、再聚焦细分场景” 的团队,比单纯喊口号的更让人放心。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.