作者|毕乐天
来源|AI先锋官
这事儿闹大了。
前两天,谷歌刚发了Gemini 3 Pro。
全网都在吹。
说它智商多高,逻辑多强。
大家都觉得,硅谷巨头又要教做人了。
结果呢?
屁股还没坐热,字节跳动(ByteDance)悄悄扔了个大炸弹。
这个叫Vidi2的模型,它干了一件事:
在视频理解这个领域,把谷歌按在地上摩擦。
真的,不夸张。
咱们直接看数据。
![]()
1. 60分 vs 16分
Vidi2有个核心指标,叫“时空定位”。
听着挺玄乎?
简单说就是:“我在视频里找个人,能不能找准时间,能不能画准框。”
在这个考试里:
字节 Vidi2 考了 60.3 分。
谷歌 Gemini 3 Pro 考了 16.6 分。
![]()
你没看错,不是险胜,是碾压。
这就好比:
谷歌是个大学教授。
满腹经纶,上知天文下知地理。
你问他:“这部电影讲了啥?”
他能给你写首诗,分析得头头是道。
但你问他:“那个穿红衣服的人,第几分第几秒出来的?给我截个图。”
教授懵了。
他大概率会瞎指一个:“呃...好像在 10 分钟左右吧?”
结果全是错的,而字节 Vidi2 呢?
它就是个干了 20 年的剪辑老师傅。
它不跟你扯虚的。
你要找人?
它直接甩给你一个精确到毫秒的时间轴。
看案例
原视频
跟踪到的视频
原视频
跟踪到的视频
原视频
跟踪到的视频
2. 长视频?谷歌那是“老年痴呆”
现在的 AI 有个通病。
记性不好。
你给它扔个 1 小时的视频。
看到后面,它就把前面的忘了。
测试数据很打脸:
只要视频超过 1 小时。
谷歌 Gemini 的准确率直接掉到了21%。
基本就是瞎蒙。
而 Vidi2 表现优异。
![]()
3. 这个功能,真能“救命”
说了半天技术,对咱们有啥用?
太有用了。
字节已经把它做进产品里了。
叫Smart Split(智能拆条)。
![]()
想象一下这个场景:
你是个博主,今天录了 2 小时的素材。
累得半死。
还得剪成 5 个短视频发抖音。
以前你怎么搞?
导入电脑,从头看到尾。
一点点剪,一点点修。
一下午没了。
现在怎么搞?
把 2 小时视频往里一扔。
输入:“帮我找找最搞笑的段子。”
去喝杯咖啡。
回来一看,5 条视频剪好了。
![]()
高光时刻给你挑好了。
横屏转竖屏给你切好了。
人脸始终在画面中间(那个 60% 的准确率立功了!)。
![]()
连字幕都给你配好了。
这哪里是 AI。
这简直是免费的剪辑实习生啊!
当然也可以体验一下
下面是
https://bytedance.github.io/vidi-website/
点击演示
![]()
上传视频来解读和查询
![]()
查询的内容
![]()
4. 为什么字节这么猛?
你可能会问:
谷歌那么有钱,算力那么强,为啥输了?
这里有个大秘密。
谷歌有 YouTube。
![]()
它知道大家喜欢看什么。
这能练出很好的推荐算法。
但字节有抖音和剪映。
![]()
它知道大家是怎么剪视频的。
这才是关键!
你在剪映里的每一次操作:
切一刀、删一段、加个特效...
都在告诉 AI:“这里是重点”、“这里是废话”。
全世界几亿人,每天都在免费帮字节“标注数据”。
这才是真正的护城河。
谷歌拿着望远镜都看不见的那种。
5. 结语
这次“偷袭”告诉我们一件事:
别迷信大厂。
别迷信大模型。
在这个时代。
谁能干活,谁才是老大。
以后的视频创作,可能真不需要你会剪辑了。
你只要会说话,会提要求。
剩下的脏活累活?
交给 Vidi2 这种“特种兵”就完事了。
如果你是剪辑师,别慌。
它不是来抢饭碗的。
它是来帮你早点下班的。
扫码邀请进群,我们带你一起来玩转ChatGPT、GPT-4、文心一言、通义千问、讯飞星火等AI大模型,顺便学一些AI搞钱技能。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.