网易首页 > 网易号 > 正文 申请入驻

为什么「从 1 数到 10」这件事,所有视频模型都不会?

0
分享至


AI 已经学会了电影的视觉语法,但还没学会世界的物理语法。


作者|汤一涛

编辑|靖宇

Seedance 2.0 有多猛,过去一个月大家已经见识过了。好莱坞已经集体下场发了声明,西半球最强法务部迪士尼也给字节跳动发了律师函。

但如果你让它做一件事:生成一个男人从 1 数到 10 的视频,它就露馅了。

能分清这是瑞安·雷诺兹还是本·斯蒂勒吗?好莱坞的抵制是有道理的|视频来源:@fofrai

生成出来的「人」五官端正、皮肤质感逼真,厨房背景细节丰富得像是实拍。他说出「one」的时候还一切正常,然后就开始鬼打墙,嘴里不断重复「t、t、t」这个音节(不是从 1 到 10 中任何一个数字的发音);或者伸出三根手指,口中却自信地说出「ten」。从头到尾,他竖起的手指没超过三根。

因为背景和人物都太真实了,所以手指崩坏的瞬间反而制造出了一种强烈的「伪人感」

这道题不只是 Seedance 2.0 的噩梦。

视频来自一位在 X 网友 fofr(简介显示是在 DeepMind 的开发者)。去年他就发现,「从 1 数到 10 并用手指比出数字」这个对三岁小孩都毫无难度的任务,是当前所有 AI 视频模型的共同死穴。

Seedance 2.0 发布后,他第一时间把这道老题扔了过去,果然也翻车了。

网友在这条推文下面掀起了一场自发的「AI 数数挑战赛」。他们把同一道题喂给了 Sora、Veo、Kling 等几乎所有主流模型,结果全军覆没,没有一个能正确地从 1 数到 10。

Veo 也没法从 1 数到 10|视频来源:@AGI_FromWalmart

当一个行业最强的产品们被一道幼儿园级别的题目集体难倒,这其实指向了一个问题:为什么这些模型已经能骗过你的眼睛,却无法理解常识

它们到底「理解」了什么,又缺失了什么?

01

统计预测 vs 理解世界:

AI 视频的能力边界


「数不到 10」不是一个孤立的 bug,它揭示了一整片当前 AI 的能力盲区。

原因也不复杂:所有的视频模型本质上做的是同一件事,从海量视频数据中学习统计规律,然后在生成每一帧画面时预测「接下来什么样的像素排列最可能出现」。这和大语言模型的「预测下一个词」(Next-Token Prediction)是同一套逻辑。

所以它们能把人脸毛孔、厨房光影、衣服褶皱渲染得以假乱真,因为训练数据里有海量样本,统计规律足够丰富。但一旦任务超出了样本的范畴,进入「常识」的领域,问题就来了。

这些问题大致可以分成三类。

首先就是手部精细动作,这是最广为人知的「AI 照妖镜」。从图像生成时代的「六指人」,到视频生成时代的「软糖手指」,手一直是 AI 的噩梦。


Midjourney 和 DALL-E 爆火的 2022 年,「手部多指」是当时文生图最明显的 Bug|图片来源:Medium

公平地说,AI 在「画手」这件事上已经取得了巨大进步。日常场景里,六指人和软糖手已经越来越少见了。

但 fofr 的测试之所以能让所有模型集体翻车,是因为它只是一个视觉渲染问题,同时还暗含了一个逻辑推理问题。它要求在 10 秒内连续变换 10 个不同手势,每个手势的手指数量严格递增,同时嘴里说的数字还要对得上

人的手有 27 块骨骼、34 块肌肉、超过 100 条韧带,单个手掌就有 18 个自由度。即便采用高分辨率扩散模型,若缺乏明确的三维先验知识,也难以表达这种精确度。


人体运动维度示意图|图片来源:ScienceDirect

况且,在训练数据中,手通常出现在画面边缘、被物体遮挡或处于运动模糊中。模型能学到的高质量手部样本远少于面部。

第二类 AI 的能力盲区是物理规律。流体怎么流、物体怎么碰撞、织物怎么飘……这些人类靠直觉就能判断的东西,AI 视频经常给出违反物理定律的答案。OpenAI 在发布 Sora 时的官方技术报告中就明确承认:Sora 无法准确模拟许多基本物理交互,比如玻璃破碎,也无法正确反映某些物体状态变化

第三类是时序逻辑的一致性。视频不是一组彼此独立的图片,而是一条有因果关系的时间链:第 3 秒的画面必须建立在第 2 秒的基础上。但当前的扩散模型把时间当作一个潜在的数学维度来处理。它在生成第 N 帧时,没有内部机制去「记住」前面伸了几根手指、下一步该加 1。时间一长,前后就对不上了。

作个类比的话,当前的 AI 视频模型像一个从没见过真手的画家,看了一百万张手的照片之后凭印象画手。大部分时候画得挺像,但他不知道手指只有五根,不知道伸出三根手指代表数字 3,更不知道从 3 到 4 意味着要再伸出一根

02

另一条路:世界模型


既然问题的根源是「不理解物理世界」,那有没有人在试图从根本上解决这个问题?

事实上,这正在成为 AI 领域最受关注的新方向之一。一个正在凝聚共识的思路是:与其让模型从海量视频中学习「世界看起来是什么样的」,不如让它先理解「世界是怎么运作的」。

这条路径有一个共同的名字,叫做世界模型(world model)。世界模型的核心思路是让 AI 建立对三维物理世界的结构性理解,包括空间的几何关系、物体的物理属性、运动的动力学规律等。

这就和当前视频生成模型的路径产生了本质区别。当前模型在二维平面上预测像素排列的统计概率,世界模型则试图让 AI 在「懂」物理规律的基础上做生成。

这个方向最知名的创业者是李飞飞。这位 ImageNet 的缔造者在 2024 年创办了 World Labs,核心目标是让 AI 拥有「空间智能」。她在去年的一篇长文中写道:

「语言是人类认知的产物,但世界遵循更复杂的规则——重力控制运动,原子结构决定光线如何产生颜色,无数物理定律约束着每一次交互。要让 AI 真正理解这一切,需要一种全新的、远超大语言模型的架构」。

今年 2 月,World Labs 完成了 10 亿美元融资,其首个产品 Marble 已经上线,可以从图像或文本生成持久的 3D 环境。


Marble 可以从一张图片或一段文字生成一个你能在里面自由走动、持续编辑的 3D 世界|图片来源:World Labs

李飞飞不是唯一的入局者。杨乐昆从 Meta 离职后创办了 AMI Labs,同样聚焦世界模型方向;Google DeepMind 的 Genie 系列模型也在探索 3D 环境的生成与模拟;Nvidia 则推出了 Cosmos,定位为「世界基础模型」,试图将视频生成、物理感知模拟和机器人工作流统一到一个框架里。

当这个领域最顶级的几位研究者和最有钱的几家公司同时往一个方向走,这本身就说明了一些问题。纯数据驱动路径的天花板,正在成为越来越多人的共识,只是解法还在探索中。

Seedance 2.0 刚出来的时候确实引起了一大波恐慌。《死侍》编剧 Rhett Reese 看完演示后甚至写下了「我不想承认,但我们可能完了」。

这种反应可以理解,Seedance 2.0 确实很强,但「数不到 10」提供了一个有用的校准视角:这些模型学会了电影的视觉语法,但还没学会世界的物理语法。它们的进步,更多是「看起来更真」,而不是「更懂现实」。

从本质上说,一个不知道手指只有五根的系统,距离真正取代人类创作者,中间还隔着一次范式级别的跨越

人类可以稍稍松口气了,至少在 AI 学会数到 10 之前

*头图来源:Nano Banana

本文为极客公园原创文章,转载请联系极客君微信 geekparkGO

马年春节最火的可能不是年味,而是 AI「小龙虾」OpenClaw!

这个存活在人们 IM(即时通讯)工具里的 AI Agent,第一次将 Agent 的流行,描绘得如此传神,「人手一虾」已成极客标配。

别人都养好几只「龙虾」了,你却还没上手?

下周一晚 20:00,极客公园视频号直播间,我们特邀 MiniMax Agent 产品负责人梁丽,手把手教你如何一键「云养」。


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
特朗普:已赚回出兵成本的37倍!美国已经卖了1亿桶委内瑞拉石油,未来一个月还有1亿桶,他此前呼吁中国购买委石油,中方:其他国家无权指手画脚

特朗普:已赚回出兵成本的37倍!美国已经卖了1亿桶委内瑞拉石油,未来一个月还有1亿桶,他此前呼吁中国购买委石油,中方:其他国家无权指手画脚

每日经济新闻
2026-05-03 09:07:16
杨鸣:辽宁队未来的重点是引援和梯队搭建,下赛季已是生存问题

杨鸣:辽宁队未来的重点是引援和梯队搭建,下赛季已是生存问题

懂球帝
2026-05-04 00:33:17
后背发凉!新司机被父亲要求80时速占快车道,称他人有本事飞过去

后背发凉!新司机被父亲要求80时速占快车道,称他人有本事飞过去

火山詩话
2026-05-04 13:02:18
游客在广西红水河玩桨板突遇暴风雨,天空瞬间变黑“度假如渡劫”,文旅局:救援及时,无人员伤亡

游客在广西红水河玩桨板突遇暴风雨,天空瞬间变黑“度假如渡劫”,文旅局:救援及时,无人员伤亡

极目新闻
2026-05-04 11:59:26
这辈子和你发生过关系的人,前世究竟是你的谁?缘分深浅,一看便知

这辈子和你发生过关系的人,前世究竟是你的谁?缘分深浅,一看便知

心理观察局
2026-05-04 08:51:07
轮到国际足联认怂了。

轮到国际足联认怂了。

果妈聊娱乐
2026-05-04 08:44:29
特斯拉正式宣布:旗下机器人正式量产,一台33.5万,10分钟快充干一天

特斯拉正式宣布:旗下机器人正式量产,一台33.5万,10分钟快充干一天

高科技爱好者
2026-05-03 22:49:07
为什么美国学生学的数学比我们简单,却能做出很牛逼的东西?

为什么美国学生学的数学比我们简单,却能做出很牛逼的东西?

新浪财经
2026-05-04 10:30:11
湖南谭嗣同墓地:破败寒酸,杂草丛生,时至今日凭吊、瞻仰者不绝

湖南谭嗣同墓地:破败寒酸,杂草丛生,时至今日凭吊、瞻仰者不绝

浩渺青史
2026-05-03 17:18:22
别信!别围观!多地街头出现,深圳也有!网友直呼看不下去

别信!别围观!多地街头出现,深圳也有!网友直呼看不下去

南方都市报
2026-05-04 16:24:38
快讯!国民党主席郑丽文发表声明!

快讯!国民党主席郑丽文发表声明!

故事终将光明磊落
2026-05-04 12:51:31
国际足联慌了!世界杯版权砍半降价认怂,央视硬刚到底:就这个价

国际足联慌了!世界杯版权砍半降价认怂,央视硬刚到底:就这个价

衔春信
2026-05-04 14:54:59
黄仁勋称英伟达中国市场份额已降为零,美国出口管制效果适得其反

黄仁勋称英伟达中国市场份额已降为零,美国出口管制效果适得其反

中国能源网
2026-05-04 11:52:08
米切尔:哈登是名人堂、MVP级别球员,他在我身边意味着全世界

米切尔:哈登是名人堂、MVP级别球员,他在我身边意味着全世界

懂球帝
2026-05-04 13:18:05
再见李金羽,徐正源执教辽宁铁人 现场督战对阵成都 严鼎皓难难了

再见李金羽,徐正源执教辽宁铁人 现场督战对阵成都 严鼎皓难难了

替补席看球
2026-05-04 17:26:58
重磅!两架美军C17运输机接连抵达北京,这是要干嘛?

重磅!两架美军C17运输机接连抵达北京,这是要干嘛?

军武咖
2026-05-03 20:18:15
安徽铜陵万达广场,女子表演天女散花时从高空坠落;工作人员:没有受伤

安徽铜陵万达广场,女子表演天女散花时从高空坠落;工作人员:没有受伤

大风新闻
2026-05-04 14:57:35
日本陆自部队新徽章,被骂下线

日本陆自部队新徽章,被骂下线

扬子晚报
2026-05-04 14:48:54
女子烧烤店就餐用签子直接喂狗,烧烤店老板主动发视频道歉:“我们两口子50岁了,第一次创业,希望能得到大家的谅解”,将主动关门一天销毁所有签子和食材

女子烧烤店就餐用签子直接喂狗,烧烤店老板主动发视频道歉:“我们两口子50岁了,第一次创业,希望能得到大家的谅解”,将主动关门一天销毁所有签子和食材

观威海
2026-05-03 20:56:09
如果一个家庭长期没酒局、没社交,也少走亲戚,只能说明这两个问题

如果一个家庭长期没酒局、没社交,也少走亲戚,只能说明这两个问题

心理观察局
2026-05-04 09:23:46
2026-05-04 18:44:49
极客公园
极客公园
让最棒的创新成为头条
12012文章数 78877关注度
往期回顾 全部

科技要闻

OpenAI“复活”了QQ宠物,网友直接玩疯

头条要闻

伊朗:美军舰试图进入霍尔木兹海峡 伊朗发射两枚导弹

头条要闻

伊朗:美军舰试图进入霍尔木兹海峡 伊朗发射两枚导弹

体育要闻

骑士破猛龙:加雷特·阿伦的活力

娱乐要闻

张敬轩还是站上了英皇25周年舞台

财经要闻

魔幻的韩国股市,父母给婴儿开户买股票

汽车要闻

同比大涨190% 方程豹4月销量29138台

态度原创

健康
本地
时尚
艺术
教育

干细胞治烧烫伤面临这些“瓶颈”

本地新闻

用青花瓷的方式,打开西溪湿地

普通人真该看看这些穿搭,短长搭配、裙子恰当,显高舒适又有气质

艺术要闻

《三国志》手抄墨稿出土!这才是最纯正的晋人书法,比王羲之的字还要风靡

教育要闻

俄罗斯归还2000余名乌克兰孩子,还有20000余!#乌克兰 #孩子

无障碍浏览 进入关怀版