这几天影视飓风有一个视频特别有意思。
简单来说,就是抛硬币,看哪边朝上。
但是用 AI 视频来抛。。
(用 AI 视频生成抛硬币的场景)
![]()
不在提示词里面写明哪一面最终朝上。
![]()
他们团队尝试了可能有几百次。
(就是用文生视频尝试了几百条视频)
后面发现硬币正反面(即数字面和人像面),
出现的概率是不一样的
![]()
视频中没说是用哪个模型,
但我猜是 Seedance 2.0
大概有 70% 的概率会得到正面,
即数字面。
但用最近新出的 Happy Horse 恰恰相反,
![]()
出现反面(花面)的概率有 75%,
太亏贼了。
本文从原理方面讲讲这是为啥:
训练数据集差异
这是最根本的原因,因为生成视频和生成文字,本质上都是让大模型来干的。
在互联网海量数据中,
抛硬币的视频里出现人头面的数量远超于数字面,所以抛硬币时出现这个概率也是很正常的。
如果模型 A 抓取了更多电影和硬币魔术的特写
(为了视觉表现力,90% 都展示硬币正面)
那么模型 A 的底层概率,
就会严重向正面倾斜。
而模型 B 如果抓取了更多,
日常 Vlog 或随机杂乱的物理实验,
偏见可能就会小一些。
![]()
CFG 等采样参数差异
为了让 AI 听懂你的话(比如抛硬币),
所有的扩散模型都会用一种技术,
叫做无分类器引导。
(Classifier-Free Guidance, 简称 CFG)
CFG 本质是把模型对提示词的注意力放大
但在放大的同时,
它也会呈指数级放大训练集里的统计偏见。
假设训练集里正面的基础概率是 p=0.55(微小偏见),当模型应用了权重为 w 的 CFG 后,最终生成的概率近似于:
![]()
如果一个模型为了画面更好看,
默认把 CFG 设置得特别高(比如 w=7),
那么原本 55% 的偏见,就会被强行放大到 92%
不同模型的默认 CFG 系数和采样步数不同,导致了概率畸变程度大相径庭。
![]()
文本编码器差异
你在对话框输入抛硬币,AI 其实是不认识字的。
它需要一个文本编码器(如 CLIP、T5 或自定义的 LLM)把文字变成高维向量。
有些编码器对“硬币”这个词的理解更侧重于“金属圆片上的图案”(导致模型倾向于画出清晰的正面图案)。
有些编码器更侧重于“抛物线的动作”,这就会导致它们在时空注意力上分配不同的权重,最终影响画面的演变逻辑。
![]()
RLHF 人类偏好对齐
模型训练好后,工程师会让人类测试员去给生成的视频打分,
就是最经典的RLHF,
基于人类反馈的强化学习。
如果测试员觉得,
“能看清硬币数字的视频”比“糊成一团的翻转视频”质量更高,
他们就会给前者的评分打高。
模型为了讨好人类(获得高奖励值),
就会在底层逻辑里强制修改输出分布,
进一步推高了“正面朝上”的概率。
![]()
以上的四个因素,
就是不同视频模型在相同提示词下,生成硬币抛出结果不同的原因。
可能还有一些因素没考虑到,欢迎交流。
然后视频的后面就是介绍世界模型了,
我之前有讲解世界模型原理的文章。
再也不用找实景场地了,世界模型直接生成可编辑立体空间
![]()
客观上来说,世界模型确实可以节省成本。
你可以简单理解为,
用 AI 3D 建模了一个世界,
之后要生成图片,直接截图。
生成视频的话就是把截出来的图生成视频,或者直接实机录像
不用再像传统那样先文生图/图生图了。
![]()
视频内容差不多就是讲这些吧。
在我看来,这些道理应该属于比较基础的,
但却能引起很大的反响。
说明其实AI普及的没有我们想得那么广泛。
甚至有很多人还没学会使用 AI。
我昨天就刷到一个视频,
一个大学生摆摊用 Dumate ,
帮路人完成杂活,十分火热。
![]()
不是顶尖的 AI 工具,照样能帮忙提效
这也是我做公众号的初心,
减小 AI 的在人们之间的信息差。
共勉。
晓风乾丨 大四 Base北京 AI产品在职
想缩小科技带来的信息差 分享很酷的AI玩法。
希望得到您的点赞转发爱心三连支持,
如果有更多想法或者问题欢迎交流~
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.