网易首页 > 网易号 > 正文 申请入驻

爆火全网《猫和老鼠》背后模型竟是这家国产AI!掀二创风暴GitHub破万星

0
分享至

  新智元报道

   编辑:编辑部 HZN

   【新智元导读】最近英伟达等机构爆火全网的《猫和老鼠》,背后模型被扒出来了——竟是来自智谱国产大模型CogVideoX-5B!原来,这个模型凭惊人的效果,早已在开源社区开发者中掀起一股全球的二创风暴。

  最近,英伟达重现《猫和老鼠》的视频,在全网掀起一股风暴。

  只需要一个提示,不用任何剪辑,AI就可以帮我们任意创作这个童年经典动画,一次60s,童年回忆无限续杯!

  这个神奇的「一分钟视频」生成器,由英伟达、斯坦福、UCSD等机构的研究者构建。

  而且原理极其简单——只需在预训练Transformer中嵌入TTT层,就能让一个5B的小模型理解复杂提示,生成长达1分钟的视频了!

  论文地址:https://test-time-training.github.io/video-dit/

  前方高能,准备好,无限精彩的童年经典全新故事来了!

  汤姆正在厨房的桌子旁高兴地吃着苹果派,不料趁它去开门时,苹果派被杰瑞偷走了。两人上演追赶大法,最终杰瑞成功逃脱,汤姆撞到墙上。

  

  杰瑞在水下找到了藏宝图,成功躲避汤姆后,它在沉船中发现了宝藏。然而正在庆祝时,汤姆的追逐却让它遇到一条饥饿的鲨鱼,陷入了大麻烦。

  

  如此生动精妙的效果,简直如同一枚炸弹,在AI创作圈炸出了惊人的冲击波。

  有意思的是,当我们去深入调查背后技术时,发现这个爆火全网的研究,竟然是建立在一个来自智谱AI的国产大模型的基础上。

  具体来说,研究者们用了预训练的CogVideo-X 5B作为基础模型,在这个模型里加上TTT层,再进行微调。

  随后,就出来了上面那一幕幕惊人的效果。

   CogVideoX-5B亮相即爆火

  而这个传说中的CogVideo-X系列图生视频模型,早在去年8月开源时,就在AI圈内引起了不小的轰动。

  它是一个简单且可扩展的结构,包含一个3D因果VAE和一个专家Transformer,可以生成连贯、长时长、动作丰富的视频:

  ·支持多种宽高比,分辨率高达768×1360,长度为10秒,帧率为16fps

  ·是首批商业级开源视频生成模型,有5B和2B两种规模,包括文本到视频和图像到视频版本

  在CogVideoX-5B中,只要输入「一张图像」+「提示词」,就能生成视频了。

  比如输入狗狗图片,配文「开心狗狗」,一只张嘴微笑的开心狗狗视频就生成了。

  而且,CogVideoX-5B的视频生成效果,在当时开源界就已经足够惊艳。

  一只狗在雨中奔跑,还戴着墨镜,尤其是地面中的倒影更显真实。还有外星人与宇航员握手这种未来科幻的场景,以及满是蝴蝶及喷泉的梦想中的精美画面,都能实现。

  左右滑动查看

  这个模型在工程优化上也保持了一定的高标准——

  支持多种推理精度,推理显存需求最低仅为11.4GB,单张3060显卡即可完成推理;

  LoRA微调显存需求为63GB,SFT微调为75GB,单卡A100(80GB)同样可以完成微调任务。

  后来,智谱团队又在11月开源了能力更强的CogVideoX v1.5,包括 CogVideoX v1.5-5B、CogVideoX v1.5-5B-I2V两个版本。

  相比于CogVideoX-5B,CogVideoX v1.5包含5/10秒、768P、16帧的视频生成能力,I2V模型支持任意尺寸比例,大幅提升了图生视频质量及复杂语义理解。

  目前,CogVideo & CogVideoX系列模型已在GitHub上斩获了11.2k star。

  开源项目:https://github.com/THUDM/CogVideo

   创新架构,刷新SOTA

  一直以来,视频生成模型都存在着运动幅度有限、持续时间较短的问题。其中,基于文本生成具有连贯叙事性的视频尤为困难。

  为解决这些挑战,智谱团队提出了诸多创新性的设计。

  论文地址:https://arxiv.org/pdf/2408.06072

  首先,团队设计并训练了一个3D因果VAE,在空间和时间维度上对视频进行压缩,从而实现了高维视频数据的高效处理。

  与先前微调2D VAE的方法相比,这种策略不仅有助于显著减少序列长度和相关训练计算量,还能有效防止生成视频中的闪烁,从而确保帧间的连续性。

  其次,为改善视频与文本间的对齐效果,团队提出了一种带有专家自适应LayerNorm的专家Transformer,用来促进两种模态的融合。

  为确保视频生成中的时序一致性并捕捉大范围运动,建议使用3D全注意力机制,从而在时间和空间维度上对视频进行全面建模。

  第三,鉴于在线可用的大多数视频数据缺乏准确的文本描述,团队开发了一个能够准确描述视频内容的视频描述生成流程。

  通过为所有视频训练数据生成了新的文本描述,CogVideoX精确理解语义的能力得到了显著的增强。

  此外,团队还设计了渐进式训练技术,包括多分辨率帧打包和分辨率渐进式训练,用以进一步提升CogVideoX的生成性能和稳定性。

  以及,提出了显式均匀采样(Explicit Uniform Sampling)方法——通过在每个数据并行单元上设置不同的时间步采样间隔,稳定了训练损失曲线并加速了收敛。

  对于生成时间较长的视频,一些模型可能会为了获得更高分数而产生帧间变化极小的视频,但这类视频缺乏丰富的内容。

  为解决此问题,团队使用了两种视频评估工具:动态质量(Dynamic Quality)和GPT4o-MTScore。

  前者通过结合多种质量指标与动态得分,减轻了由视频动态性与视频质量之间负相关所带来的偏差;后者则是通过GPT-4o来测量视频内容的变化程度。

  结果显示,CogVideoX-5B不仅在视频生成质量方面表现出色,而且在处理各种复杂动态场景方面也优于先前的模型。

  其中,CogVideoX-5B在7项指标中有5项取得了最佳性能,并在其余2项指标上也名列前茅。

  在VAE重建效果方面, CogVideoX-5B取得了最高的PSNR值和最低的抖动。

   开源社区,全是「二创」

  由于出色性能,现在不少项目上都已经适配了CogVideoX。

  在官方的Github页面上展示了十几个使用CogVideoX的开源项目链接,其中不乏一些实用、知名的项目。

  比如下面这个DiffSynth-Studio开源项目,已经获得8.3k个星了。

  项目地址:https://github.com/modelscope/DiffSynth-Studio?tab=readme-ov-file

  该项目在CogVideoX-5B生成的视频基础上进行编辑和帧插值操作,以达到更好的效果。

  左侧为原始文本生视频,右侧是编辑和帧插值后的结果

  而KoolCogVideoX是一个基于CogVideoX的微调模型,专为室内设计而设计。

  被CVPR 2025录用为Highlight的ConsisID,是一种身份保持的文本到视频生成模型,基于CogVideoX-5B,通过频率分解在生成的视频中保持面部一致性。

  VideoX-Fun基于CogVideoX的框架,支持灵活的分辨率(从512到1024)和多种启动方法(包括ComfyUI、WebUI以及Python)。

  显然,在未来我们还将见证更多基于CogVideoX-5B微调的项目如火如荼地上线,充分发挥CogVideoX系列开源模型的力量。

  据说,3天后智谱的全新开源模型也要上线,包括基座模型、推理模型、沉思模型,实在是把期待值给拉满了。

   参考资料:

   https://github.com/THUDM/CogVideo

   https://test-time-training.github.io/video-dit/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
CCTV5直播!2026亚洲杯国乒参赛名单、赛程以及央视直播表

CCTV5直播!2026亚洲杯国乒参赛名单、赛程以及央视直播表

好乒乓
2026-02-02 11:41:26
陕甘之战——汉人最伟大的一场巅峰战役,带领华夏重回世界之巅

陕甘之战——汉人最伟大的一场巅峰战役,带领华夏重回世界之巅

小豫讲故事
2026-01-31 06:00:10
吴京再次失手,新片上映8天票房1200万,投资血本无归

吴京再次失手,新片上映8天票房1200万,投资血本无归

乐悠悠娱乐
2026-01-31 11:04:02
3天客流近15万!京东七鲜超市北京新店成线下经济“新年爆点”

3天客流近15万!京东七鲜超市北京新店成线下经济“新年爆点”

商业透镜
2026-02-02 14:14:31
太骚了,阿什利-扬:我们都在讨论卡塞米罗的不看人传球助攻

太骚了,阿什利-扬:我们都在讨论卡塞米罗的不看人传球助攻

懂球帝
2026-02-02 14:55:18
体测数据显示,徐彬在力量方面好于狼队一线队平均水平

体测数据显示,徐彬在力量方面好于狼队一线队平均水平

懂球帝
2026-02-02 22:50:09
世界第一!中国机床,雪耻了

世界第一!中国机床,雪耻了

华商韬略
2026-02-01 12:45:53
道指涨超300点,闪迪大涨12%,中概股普跌,小鹏跌超10%,油价重挫4%,加密货币近20万人爆仓

道指涨超300点,闪迪大涨12%,中概股普跌,小鹏跌超10%,油价重挫4%,加密货币近20万人爆仓

21世纪经济报道
2026-02-02 23:43:52
曾火遍深圳城中村的称重快餐,为何突然接连倒闭?吃饱要25+?

曾火遍深圳城中村的称重快餐,为何突然接连倒闭?吃饱要25+?

捣蛋窝
2026-02-02 15:59:46
天津一家三口掉进冰窟后续:脱衣救人大哥已找到,被救一家反威胁

天津一家三口掉进冰窟后续:脱衣救人大哥已找到,被救一家反威胁

离离言几许
2026-02-02 23:59:38
落毛的凤凰不如鸡!忘恩负义的杨颖,再一次沦为了内娱的笑柄

落毛的凤凰不如鸡!忘恩负义的杨颖,再一次沦为了内娱的笑柄

林轻吟
2026-01-29 19:59:06
舒畅举报了两人:除了郝伟,另一人吴志东在20年前就被举报黑哨

舒畅举报了两人:除了郝伟,另一人吴志东在20年前就被举报黑哨

姜大叔侃球
2026-02-02 23:06:50
事关黄金交易!工、农、中、建、交、邮储,六大行密集公告

事关黄金交易!工、农、中、建、交、邮储,六大行密集公告

极目新闻
2026-02-02 07:56:48
52岁挪威王储妃写给爱泼斯坦的邮件曝光,“你让我心痒难耐”

52岁挪威王储妃写给爱泼斯坦的邮件曝光,“你让我心痒难耐”

译言
2026-02-03 04:21:22
我在芬兰见雇主家暖气不热,顺手修了,第5天小镇的人都赶过来了

我在芬兰见雇主家暖气不热,顺手修了,第5天小镇的人都赶过来了

三农老历
2026-01-30 11:25:43
2032奥运会举办地敲定,结果出人意料,冷门小城撑起奥运局

2032奥运会举办地敲定,结果出人意料,冷门小城撑起奥运局

有范又有料
2026-02-02 14:27:13
深圳水贝金店昨晚集体“封盘”,老板拒收现金只卖茶:闻到血腥味

深圳水贝金店昨晚集体“封盘”,老板拒收现金只卖茶:闻到血腥味

趣味萌宠的日常
2026-02-03 01:36:11
汽水音乐,正把中国音乐市场带回盗版时代?

汽水音乐,正把中国音乐市场带回盗版时代?

吴怼怼
2026-02-02 12:00:58
全新一代雷克萨斯ES将于4月上市,上海工厂下半年竣工

全新一代雷克萨斯ES将于4月上市,上海工厂下半年竣工

IT之家
2026-02-02 15:35:32
郑丽文8小时霸气拿回56亿现金,还让中天复台,蓝营终于起死回生

郑丽文8小时霸气拿回56亿现金,还让中天复台,蓝营终于起死回生

小小科普员
2026-02-02 17:08:07
2026-02-03 07:23:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14464文章数 66563关注度
往期回顾 全部

科技要闻

阿里筑墙,腾讯寄生,字节偷家

头条要闻

周生生足金挂坠戴1天被刮花 检测后发现含铁、银、钯

头条要闻

周生生足金挂坠戴1天被刮花 检测后发现含铁、银、钯

体育要闻

澳网男单决赛,属于阿尔卡拉斯的加冕仪式

娱乐要闻

57岁音乐人袁惟仁去世,家属发文悼念

财经要闻

金银暴跌 全球股市遭遇“黑色星期一”

汽车要闻

雷克萨斯LC500将于今年底停产 "最美雷克萨斯"谢幕

态度原创

时尚
艺术
房产
公开课
军事航空

裤子+靴子:今年冬天最经典搭配,松弛又时髦!

艺术要闻

曾经的年画,难得一见!

房产要闻

狂卖1548亿后,海南又上演疯狂抢地!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

委内瑞拉外长会见美外交使团团长

无障碍浏览 进入关怀版