网易首页 > 网易号 > 正文 申请入驻

腾讯版Sora发布即开源!130亿参数,模型权重、推理代码全开放

0
分享至

梦晨 西风 发自 凹非寺
量子位 | 公众号 QbitAI

腾讯版Sora,发布即开源!

130亿参数,成为目前参数量最大的开源视频生成模型。模型权重、推理代码、模型算法等全部上传GitHub与Hugging Face,一点没藏着。

实际效果如何呢?

不瞒你们说,我真的看见一只大熊猫,在跳广场舞、吃火锅、打麻将,请看VCR:

到底是来自四川的猫!

目前该模型已上线腾讯元宝APP,用户可在AI应用中的“AI视频”板块申请试用。

API同步开放测试,开发者可通过腾讯云接入。

腾讯混元视频生成主打四大特点:

  • 超写实画质,模型生成的视频内容具备高清质感、真实感,可用于工业级商业场景例如广告宣传、创意视频生成等商业应用。
  • 高语义一致,用户可以进行细致的刻画,例如生成主体的细节,人物概念的组合等。模型可以准确的表达出文本的内容。
  • 运动画面流畅,可生成大幅度的合理运动,运动镜头流畅、符合物理规律,不易变形。
  • 原生镜头转换,模型原生具备自动生成多视角同主体的镜头切换画面,增强画面叙事感。

那么实际表现能否符合描述?下面结合实例一一拆解。

实测腾讯首个文生视频模型

首先是冲浪题材,涉及到画面大幅度运动,水的物理模拟等难点。

提示词中还特别指定了摄像头的运动,腾讯混元表现出流畅运镜的能力,只是在“最后定格在…”这个要求上稍显不足。

提示词:超大海浪,冲浪者在浪花上起跳,完成空中转体。摄影机从海浪内部穿越而出,捕捉阳光透过海水的瞬间。水花在空中形成完美弧线,冲浪板划过水面留下轨迹。最后定格在冲浪者穿越水帘的完美瞬间。

镜子题材,考验模型对光影的理解,以及镜子内外主体运动是否能保持一致。

提示词中的白床单元素又加大了难度,涉及到的布料模拟,也符合物理规律。

不过人们想象中的幽灵一般没有脚,AI似乎没学到,又或者是跳舞涉及大量腿部动作,产生了冲突。

穿着白床单的幽灵面对着镜子。镜子中可以看到幽灵的倒影。幽灵位于布满灰尘的阁楼中,阁楼里有老旧的横梁和被布料遮盖的家具。阁楼的场景映照在镜子中。幽灵在镜子前跳舞。电影氛围,电影打光。

接下来是腾讯混元视频生成主推的功能之一,在画面主角保持不变的情况下自动切镜头,据了解是业界大部分模型所不具备的能力。

一位中国美女穿着汉服,头发飘扬,背景是伦敦,然后镜头切换到特写镜头。

https://mp.weixin.qq.com/s/6_ciIeZBqkFMuizUmjKV4Q?token=1748535864&lang=zh_CN

再来一个综合型的复杂提示词,对主角外貌、动作、环境都有细致描述,画面中还出现其他人物,腾讯混元表现也不错。

特写镜头拍摄的是一位60多岁、留着胡须的灰发男子,他坐在巴黎的一家咖啡馆里,沉思着宇宙的历史,他的眼睛聚焦在画外走动的人们身上,而他自己则基本一动不动地坐着,他身穿羊毛大衣西装外套,内衬系扣衬衫,戴着棕色贝雷帽和眼镜,看上去很有教授风范,片尾他露出一丝微妙的闭嘴微笑,仿佛找到了生命之谜的答案,灯光非常具有电影感,金色的灯光,背景是巴黎的街道和城市,景深,35毫米电影胶片。

最后附上来自官方的写prompt小tips:

  • 用法1:提示词=主体+场景+运动
  • 用法2:提示词=主体(主体描述)+场景(场景描述)+运动(运动描述)+(镜头语言)+(氛围描述)+(风格表达)
  • 用法3:提示词=主体+场景+运动+(风格表达)+(氛围描述)+(运镜方式)+(光线)+(景别)
  • 多镜头生成:提示词=[场景1]+镜头切换到[场景2]
  • 两个动作生成:提示词=[主体描述]+[动作描述]+[然后、过了一会等连接词]+[动作描述2]

怎么样,你学会了吗?

更多腾讯混元生成的视频,以及与Sora同提示词PK,还可以看看量子位在内测阶段的尝试。

最大的开源视频生成模型。

看完效果,再看看技术层面有哪些亮点。

首先从官方评估结果看,混元视频生成模型在文本视频一致性、运动质量和画面质量多个维度效果领先。

然后从目前公开资料看,腾讯混元视频生成模型还有三个亮点。

1、文本编码器部分,已经适配多模态大模型

当下行业中多数视觉生成模型的文本编码器,适配的主要是上一代语言模型,如OpenAI的CLIP和谷歌T5及各种变种。

腾讯在开源图像生成模型Hunyuan-DiT中适配的是T5和CLIP的结合,这次更进一步,直接升级到了新一代多模态大语言模型(Multimodal Large Language Model)。

由此能够获得更强大的语义跟随能力,体现在能够更好地应对画面中存在的多个主体,以及完成指令中更多的细节。

2、视觉编码器部分,支持混合图片/视频训练,提升压缩重建性能

视频生成模型中的视觉编码器,在压缩图片/视频数据,保留细节信息方面起着关键作用。

混元团队自研了3D视觉编码器支持混合图片/视频训练,同时优化了编码器训练算法,显著提升了编码器在快速运行、纹理细节上的压缩重建性能,使得视频生成模型在细节表现上,特别是小人脸、高速镜头等场景有明显提升。

3、从头到尾用full attention(全注意力)的机制,没有用时空模块,提升画面流畅度。

混元视频生成模型采用统一的全注意力机制,使得每帧视频的衔接更为流畅,并能实现主体一致的多视角镜头切换。

与“分离的时空注意力机制”分别关注视频中的空间特征和时间特征,相比之下,全注意力机制则更像一个纯视频模型,表现出更优越的效果。

更多细节,可以参见完整技术报告~

官网:https://aivideo.hunyuan.tencent.com

代码:https://github.com/Tencent/HunyuanVideo

模型:https://huggingface.co/tencent/HunyuanVideo

技术报告:https://github.com/Tencent/HunyuanVideo/blob/main/assets/hunyuanvideo.pdf

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
情节严重!4名外卖骑手跑腿买药 被判贩卖毒品罪

情节严重!4名外卖骑手跑腿买药 被判贩卖毒品罪

看看新闻Knews
2026-02-09 22:27:12
3天内2起机械故障,海航通报:HU7696航班紧急备降,后继航班调整到20:45执行

3天内2起机械故障,海航通报:HU7696航班紧急备降,后继航班调整到20:45执行

界面新闻
2026-02-09 20:52:00
爱泼斯坦文件曝光,迈克尔·杰克逊被重新审视!

爱泼斯坦文件曝光,迈克尔·杰克逊被重新审视!

达文西看世界
2026-02-09 21:36:38
NBA交易截止日后,湖人对布朗尼·詹姆斯进行阵容调整

NBA交易截止日后,湖人对布朗尼·詹姆斯进行阵容调整

好火子
2026-02-10 04:26:15
微博之夜过后,终于意识到内娱真的完了

微博之夜过后,终于意识到内娱真的完了

娱乐圈笔娱君
2026-02-09 14:29:12
高市大胜后,日本共产党立即作出决定:进入全面防御与对抗状态!

高市大胜后,日本共产党立即作出决定:进入全面防御与对抗状态!

青青子衿
2026-02-09 20:42:50
5-0横扫!榜首易主,卫冕冠军制造惨案,金球先生爆发:梅开二度

5-0横扫!榜首易主,卫冕冠军制造惨案,金球先生爆发:梅开二度

足球狗说
2026-02-09 05:38:49
一位班主任的大实话:长大有本事的孩子,大多都出生在这些家庭

一位班主任的大实话:长大有本事的孩子,大多都出生在这些家庭

青苹果sht
2026-02-09 06:15:29
吃剩饭吃进ICU!126℃都杀不死!你还敢这样节约吗?

吃剩饭吃进ICU!126℃都杀不死!你还敢这样节约吗?

徐德文科学频道
2026-02-09 13:35:02
川大博导王竹卿事件后续!曾扬言:学院敢管就带几百万回日本

川大博导王竹卿事件后续!曾扬言:学院敢管就带几百万回日本

派大星纪录片
2026-02-09 18:10:33
飞机懵了,高铁“傻了”,一夜之间,大家抢破头的竟是绿皮火车。

飞机懵了,高铁“傻了”,一夜之间,大家抢破头的竟是绿皮火车。

百态人间
2026-02-09 15:38:20
吴京“唇部紧急护理”登热搜,本人回应

吴京“唇部紧急护理”登热搜,本人回应

红星新闻
2026-02-07 12:08:08
西贝最大的敌人没了

西贝最大的敌人没了

求实处
2026-02-09 18:54:45
罢赛1周后,41岁C罗赢了!2大诉求已获金主满足,本周末重返赛场

罢赛1周后,41岁C罗赢了!2大诉求已获金主满足,本周末重返赛场

我爱英超
2026-02-09 23:15:37
湖北单亲妈妈嫁65岁美国老头,带儿子移民美国,婚后14年老头去世

湖北单亲妈妈嫁65岁美国老头,带儿子移民美国,婚后14年老头去世

冷紫葉
2026-02-09 15:07:47
研究人员以为算错了:瓶装水塑料污染是自来水3倍 每升含600万个塑料颗粒可能入脑

研究人员以为算错了:瓶装水塑料污染是自来水3倍 每升含600万个塑料颗粒可能入脑

红星新闻
2026-02-09 18:22:11
落后0.38分!谷爱凌遭逆转 摘银创历史 最新奖牌榜排名:中国第11

落后0.38分!谷爱凌遭逆转 摘银创历史 最新奖牌榜排名:中国第11

侃球熊弟
2026-02-09 20:29:35
揭秘亚洲最穷国:当地女性惊人开放,游客秒变土豪,无不想去定居

揭秘亚洲最穷国:当地女性惊人开放,游客秒变土豪,无不想去定居

明天后天大后天
2026-02-07 11:10:14
快过年了,底层的戾气越来越重了

快过年了,底层的戾气越来越重了

诗词中国
2026-02-09 20:33:49
男子开3千公里参加战友婚礼,随礼8万,到家接到电话:看看后备箱

男子开3千公里参加战友婚礼,随礼8万,到家接到电话:看看后备箱

温情邮局
2025-08-18 14:57:26
2026-02-10 06:11:00
量子位 incentive-icons
量子位
追踪人工智能动态
12141文章数 176381关注度
往期回顾 全部

科技要闻

实测|字节新模型带着音效和复杂运镜杀疯了

头条要闻

人民日报评"南博事件":无论涉及到什么人 绝不放任

头条要闻

人民日报评"南博事件":无论涉及到什么人 绝不放任

体育要闻

不会打篮球,如何入选詹娜前男友第一阵容

娱乐要闻

央视电影活动名场面!明星站位太讲究

财经要闻

沪深北交易所优化再融资 释放3个信号

汽车要闻

长安将搭钠电池 好比汽车要装柴油机?

态度原创

教育
游戏
时尚
本地
军事航空

教育要闻

选政史地男生别急!国防科大和武警警官学院报考解析

推出“黑命贵”DLC后,《我的世界》被骂“洗脑儿童”"/> 主站 商城 论坛 自运营 登录 注册 推出“黑命贵”DLC后,《我的世界》被骂“洗脑儿童” ...

冬季穿衣越简单越实用!从这些日常穿搭中收获灵感,大方又自然

本地新闻

围观了北京第一届黑色羽绒服大赛,我笑疯了

军事要闻

美伊最敏感时刻 林肯号航母迎来三位“不速之客”

无障碍浏览 进入关怀版