网易首页 > 网易号 > 正文 申请入驻

美团视频生成模型来了!一出手就是开源SOTA

0
分享至

来源:市场资讯

(来源:量子位)

美团,你是跨界上瘾了是吧!(doge)

没错,最新开源SOTA视频模型,又是来自这家“送外卖”的公司。

模型名为LongCat-Video,参数13.6B,支持文生/图生视频,视频时长可达数分钟。

从官方释出的demo来看,模型生成的视频不仅更加真实自然,而且懂物理的能力又双叒增强了。

无论是空中滑板:

还是一秒特效变身:

抑或是第一视角下,全程需要保持画面一致的骑车视频(时长整整有4分多种):

仔细看,视频的AI味儿浓度确实降低不少。

而且从测评成绩来看,其表现也相当亮眼——文生视频能力在开源模型中处于顶尖水平,整体质量优于PixVerse-V5和Wan2.2-T2V-A14B,部分核心维度甚至可与谷歌最新、最强闭源模型Veo3媲美。

而且由于采用的是允许商用的MIT协议,连Hugging Face高级主管也用三连问来表示惊叹。

以及其长视频生成能力(稳定输出5分钟)也被视为,“我们离视频AI的终极形态又更进一步”。

so,一家外卖公司出品的视频模型究竟如何?来看更多案例。

整体而言,美团这次发布并开源的LongCat-Video具备以下功能:

文生视频方面,从官方提供的案例来看,这个模型尤为强调对真实世界的理解能力。

一眼看去,主页上一溜的足球、体操、跳舞等视频:

仅以其中的“水上芭蕾”来看,模型面临的挑战不可谓不艰难——既需要具备高度的细节捕捉能力,还需要能够处理复杂的光影效果、环境模拟和动态场景。

而LongCat-Video几乎都考虑到了,整体完成度be like:

图生视频方面,这不双十一到了,所以各大商家也能拿来做一些更实用的宣传视频了:

当然,由于提供了原始参考图,所以图生视频上通常我们更看重模型是否能保持前后一致。

而当给了LongCat-Video一张机器人正在工作的图片后,它直接立马生成了机器人“居家办公”的日常vlog。

一会儿拿桌上的小熊、一会儿拿水杯、甚至下班关电脑……不同动作下,桌面及周围的环境均未发生“异变”,扛住了一致性挑战。

当搞定了一致性这个“老大难”后,LongCat-Video的玩法也就更多了。

白天当壁画,晚上出来打游戏可还行(谁说不是真·破壁呢?)。

还能制作动画大电影:

此外,LongCat-Video最核心的能力还在于视频延长,它能像制作连续剧一样生成分钟级长视频。

一个视频搞定后,只需接着续写提示词,最终就能生成一个完整情节或片段。

比如下面这个接近半分钟的视频,就是通过以下提示词一步步实现的(中译版):

1、厨房明亮通风,白色橱柜和木质台面交相辉映。一块新鲜出炉的面包放在砧板上,旁边放着一个玻璃杯和一盒牛奶。一位身着碎花围裙的女士站在木质台面旁,熟练地用锋利的刀切着一块金黄色的面包。面包放在砧板上,她切的时候,面包屑四处飞溅。

2、镜头拉远,女人放下手中的刀,伸手去拿牛奶盒,然后将其倒入桌上的玻璃杯中。

3、女人放下牛奶盒。

4、女人拿起牛奶杯,抿了一口。

怎么样?是不是有拍电影电视剧的感jio了~

敲黑板,由于LongCat-Video本身就经过视频连续任务的预训练,所以它能够制作长达数分钟的视频,而不会出现颜色漂移或质量下降的情况(一般可稳定输出5分钟级别的长视频,且无质量损失)。

美团表示,之所以推出LongCat-Video,核心瞄准的还是世界模型这一前沿领域:

而为了构建视频模型LongCat-Video,美团这次在技术方面也是进行了一系列创新和突破。

LongCat-Video只有13.6B,但集成了文生视频、图生视频和视频续生三大任务于一体。

具体来说,整个模型以Diffusion Transformer(DiT)为框架设计,其中每个Transformer块都由3D自注意力层、交叉注意力层,以及采用SwiGLU激活函数的前馈网络组成。

并使用AdaLN-Zero调制机制,将每个Transformer块均集成为专用的调制多层感知机,再在自注意力和交叉注意力模块中,采用RMSNorm归一化以提升训练稳定性,另外还对视觉token的位置编码使用3D RoPE。

然后将所有任务都定义为视频续生任务,通过条件帧数量进行区分:

统一混合输入后,将无噪声的条件帧和待去噪的噪声帧沿着时间轴拼接,结合时序步配置,以实现单模型原生支持多任务。

而为了适配这类输入,研究团队还在架构中设计了一种带键值缓存(KVCache)的块注意力机制,该设计可以确保条件token不受噪声token的影响,且后续可以缓存并复用条件token的KV特征,提升长视频生成效率。

其中最瞩目的长视频生成能力,主要通过原生预训练设计和交互式生成支持两大核心特性实现。

首先LongCat-Video摒弃了传统的“先训练基础视频生成能力,再针对长视频任务微调”的训练路径,而是直接在视频续生任务上预训练。

这样做可以直接从源头解决长视频生成中的累积误差问题,在生成分钟级视频的同时,避免色彩漂移和质量下降。

另外LongCat-Video还支持交互式长视频生成,允许用户为不同片段设置独立指令,进一步扩展了长视频创作的灵活性。

为了提高视频生成的推理效率,团队提出了一种从粗到精的生成范式,先是让模型生成480p、15fps的低分辨率低帧率视频,再通过三线性插值将分辨率升级至720p、30fps,同时由一个LoRA训练的精炼专家模型进行细节优化。

再引入块稀疏注意力,将注意力计算量降至原始的10%以下,配合上下文并行的环形块稀疏注意力,进一步优化高分辨率生成效率。

结合CFG蒸馏和一致性模型(CM)蒸馏,将采样步数从50步缩减至16步,实现在单H800 GPU上,单个720p、30fps视频生成可在分钟内完成,效率提升超10倍。

另外针对视频生成场景,使用组相对策略优化(GRPO)算法,提升GRPO在视频生成任务中的收敛速度与生成质量。

在训练过程中,分别采用三类专用奖励模型:

然后进行多奖励加权融合训练,避免单一奖励的过拟合和奖励欺骗问题,实现视觉、运动、对齐能力的均衡提升。

在完成数据构建和模型训练后,研究团队首先对其进行内部基准测试,主要评估文生视频和图生视频性能。

其中文生视频,包含文本对齐、视觉质量、运动质量、整体质量四个维度。

实验结果表明,LongCat-Video在整体质量得分中超越PixVerse-V5和Wan2.2-T2V-A14B,视觉质量接近Wan2.2-T2V-A14B,仅略逊于闭源模型Veo3。

图生视频则在此基础上,新增图像对齐维度评估,最终结果中LongCat-Video的视觉质量得分最高(3.27),说明整体质量具有竞争力,但图像对齐与运动质量仍有提升空间。

另外研究团队还进行了VBench 2.0的公开基准测试,LongCat-Video总得分位列第三(62.11%),仅次于Veo3(66.72%)和Vidu Q1(62.7%)。

值得注意的是,LongCat-Video在常识性维度(运动合理性、物理定律遵循)上处于第一的领先优势,凸显出该模型优秀的物理世界建模能力。

而这已经不是这家外卖公司第一次“不务正业”了……

从八月底开始,美团龙猫大模型就在不停地发发发,先是端出来了最经典的开源基础模型LongCat-Flash-Chat。

总参数560B,可以在仅激活少量参数的前提下,实现性能比肩市面上的主流模型,尤其是在复杂的Agent任务中表现突出。

而且现已登陆API平台使用~

一个月不到,又上新了LongCat-Flash-Thinking,在逻辑、数学、编码、Agent多任务中均达成SOTA水平,是国内首个同时具备“深度思考+工具调用”和“非形式化+形式化”推理能力的LLM,可以实现更低成本、更优性能。

随后又专为语音LLM推出了LongCat-Audio-Codec,可以同时对语义和声学token以低帧速率(16.7Hz/60ms)并行提取,实现高效离散化,并能够在极低的比特率中保持高清晰度。

以及专为复杂现实生活场景(外卖送餐、餐厅点餐、旅游出行)打造的Agent评测基准——VitaBench,可以系统性衡量Agent在推理、工具使用和自适应交互方面的能力。(泪目,终于回归老本行.jpg)

最后再到今天的视频生成模型,毫无疑问,“跨界”AI正在成为这家外卖公司的新常态。

开源地址:

https://github.com/meituan-longcat/LongCat-Video

https://huggingface.co/meituan-longcat/LongCat-Video

项目主页:

https://meituan-longcat.github.io/LongCat-Video/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
全市中到大雨,局部暴雨!有雷电!济南将开启“雨雨雨”模式

全市中到大雨,局部暴雨!有雷电!济南将开启“雨雨雨”模式

齐鲁壹点
2026-05-15 22:08:24
印度自取其辱,专挑中美的大日子举办金砖会议,王毅外长直接不去

印度自取其辱,专挑中美的大日子举办金砖会议,王毅外长直接不去

生活魔术专家
2026-05-15 16:18:18
马斯克儿子四个月婚姻破裂,两年后产女并爱上男DJ

马斯克儿子四个月婚姻破裂,两年后产女并爱上男DJ

李橑在北漂
2026-05-15 14:26:39
谢霆锋北京街头骑行等红灯被偶遇,侧颜帅炸了,这状态哪像44岁

谢霆锋北京街头骑行等红灯被偶遇,侧颜帅炸了,这状态哪像44岁

嘴角上翘的弧度
2026-05-14 02:53:32
零跑汽车:一季度营收同比增8%,净亏损扩大至3.9亿元

零跑汽车:一季度营收同比增8%,净亏损扩大至3.9亿元

澎湃新闻
2026-05-15 20:34:26
广东记者质疑杜锋:整个赛季,都没有将奎因放在合适的位置

广东记者质疑杜锋:整个赛季,都没有将奎因放在合适的位置

体育哲人
2026-05-15 19:54:24
6月喜迎财神上门!事业开新局,顺风顺水满堂生辉的三大生肖!

6月喜迎财神上门!事业开新局,顺风顺水满堂生辉的三大生肖!

毅谈生肖
2026-05-13 11:18:00
日本突发强震

日本突发强震

农民日报
2026-05-15 20:20:17
5万人怒砸东京街,高市早苗终于服软认怂,中方冷回:不纠错免谈

5万人怒砸东京街,高市早苗终于服软认怂,中方冷回:不纠错免谈

泠泠说史
2026-05-14 21:52:49
“给儿子吃得大脑缺氧了!”一顿全碳水早餐,暴露了宝妈的低认知

“给儿子吃得大脑缺氧了!”一顿全碳水早餐,暴露了宝妈的低认知

妍妍教育日记
2026-05-14 13:30:26
明星卸妆后,曾黎邋遢憔悴,田曦薇像无眉大侠,黄晓明撞脸大衣哥

明星卸妆后,曾黎邋遢憔悴,田曦薇像无眉大侠,黄晓明撞脸大衣哥

流云随风去远方
2026-05-13 08:12:48
国安4-2战胜海牛,主帅:我们本应取得3连胜

国安4-2战胜海牛,主帅:我们本应取得3连胜

余憁搞笑段子
2026-05-15 23:12:24
马斯克2个月连发26条种族帖,只为攻击诺兰2.5亿新片选角

马斯克2个月连发26条种族帖,只为攻击诺兰2.5亿新片选角

热搜摘要官
2026-05-14 06:45:33
马斯克点赞,宇树科技“载人机甲”的惊天一跃

马斯克点赞,宇树科技“载人机甲”的惊天一跃

零态
2026-05-14 16:12:40
秦岭摩托车男子被撞死,肇事者只能赔18万:162万缺口,谁来填?

秦岭摩托车男子被撞死,肇事者只能赔18万:162万缺口,谁来填?

匹夫来搞笑
2026-05-15 17:43:05
终结日本混双冠军梦!星驰组合2-0晋级,泰国赛四强国羽半壁江山

终结日本混双冠军梦!星驰组合2-0晋级,泰国赛四强国羽半壁江山

钉钉陌上花开
2026-05-15 18:34:19
花生再次被关注!调查发现:糖尿病常吃花生不过半年或有4好处

花生再次被关注!调查发现:糖尿病常吃花生不过半年或有4好处

芹姐说生活
2026-05-15 23:37:01
美国人评选朝鲜战争8大名将麦克阿瑟第六,彭总第二,谁是第一?

美国人评选朝鲜战争8大名将麦克阿瑟第六,彭总第二,谁是第一?

超人强动物俱乐部
2026-05-15 17:06:47
马斯克陪特朗普来华公务访问,78岁母亲却在上海抢了风头

马斯克陪特朗普来华公务访问,78岁母亲却在上海抢了风头

林子说事
2026-05-15 14:13:33
CBA最新消息!广东队拒绝买断王少杰,北控男篮要价逼退朱芳雨!

CBA最新消息!广东队拒绝买断王少杰,北控男篮要价逼退朱芳雨!

绯雨儿
2026-05-15 08:28:40
2026-05-16 00:32:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
3200841文章数 7373关注度
往期回顾 全部

科技要闻

直降千元起步!苹果华为率先开启618让利

头条要闻

特朗普称中方同意购买200架波音飞机 外交部回应

头条要闻

特朗普称中方同意购买200架波音飞机 外交部回应

体育要闻

德约科维奇买的球队,从第6级联赛升入法甲

娱乐要闻

方媛为何要来《桃花坞6》没苦硬吃?

财经要闻

腾讯掉队,马化腾戳破真相

汽车要闻

高尔夫GTI刷新纽北纪录 ID. Polo GTI迎全球首秀

态度原创

本地
数码
旅游
亲子
公开课

本地新闻

用苏绣的方式,打开江西婺源

数码要闻

七彩虹2026款iGame M15/M16 Origo笔记本发售,11499元起

旅游要闻

别只冬天去哈尔滨,五月花海才是正确打开方式!

亲子要闻

一起预防老年痴呆

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版