网易首页 > 网易号 > 正文 申请入驻

Qwen负责人转发2025宝藏论文,年底重读「视觉领域GPT时刻」

0
分享至

闻乐 发自 凹非寺
量子位 | 公众号 QbitAI

2025最后几天,是时候来看点年度宝藏论文了。

比如,阿里最年轻P10、Qwen大模型技术负责人林俊旸最新转发了一篇名为《Video models are zero-shot learners and reasoners》的研究。

没错,就是谷歌DeepMind提出视频模型“思维链”CoF的那篇入选ICCV 2025的论文。

当时,这篇研究还给出了一个关键信号:视觉领域的“GPT时刻”要来了。



该研究用1.8万组实验数据证明,视频模型正在跳出任务专属的局限,走上LLM的老路——

用一个模型,通过提示,完成几乎所有的视觉任务

并且,推理过程还能被CoF“演”出来。

从NLP到CV

自然语言处理领域的GPT时刻,核心是实现了一个模型通吃所有

在此之前,翻译、写作、问答等任务都各自有专属的模型,而LLM的出现,靠大规模数据训练和生成式架构,让零样本学习成为可能,模型通过文字提示就能完成各种各样的任务。

但计算机视觉领域却还一直深陷于这种碎片化的困境。

比如,要做目标检测得用YOLO,做语义分割依赖SAM,图像超分要找专门模型,3D重建还得换另一套工具。

这些针对不同任务的模型架构差异很大,不仅开发成本高,还严重限制了视觉AI的泛化能力,导致视觉AI的进步一直是单点突破。

比如这个模型在分割任务上刷新SOTA,另一个模型在检测任务上实现提速,却始终没能解决“多任务统一”的问题。



而这篇论文详解了谷歌DeepMind借鉴LLM的成功路径,让Veo 3成为了一个“视觉通才”。

通过大规模视频与文本数据的生成式训练,打通了视觉感知与语言理解的壁垒,让模型具备了跨任务的通用能力



而且Veo 3完美复刻了LLM的零样本优势,面对没专门训练过的任务,只要用文字说清需求,模型就能直接输出结果,无需额外调参或数据微调。

这也正是说视觉GPT时刻到来的核心标志。

从生成视频到用视频思考

就像林俊旸提到的那样,这篇论文指出视频模型一个非常关键的变化在于——视频不再只是输出的形式,也开始体现推理的过程。

模型在生成视频的过程中,会逐步展开中间状态,这就让推理不再是完全不可见的黑箱。

论文中将这种现象称为Chain-of-Frames,也就是CoF,类似于语言模型中的CoT,只不过视频模型是通过连续生成的视频帧,把整个推理过程“演”出来。

模型在时间和空间中不断调整画面,用可见的变化替代抽象的符号推理。



因此,无论是解迷宫、做路径规划,还是进行规则外推,模型都不是一次性输出结果,而是在连续的视觉变化中逐步逼近正确解。

推理过程则被隐含地编码在视频序列之中,视频模型开始在过程中思考

正是这种“逐帧生成即推理”的方式,为通用性提供了基础。
因为模型不再围绕某一个具体任务去算结果,转而在统一的生成过程中,不断更新对场景状态的理解。

不同任务之间的差异,不再体现在模型结构或输出形式上,而是被压缩成了“生成过程中关注什么、如何继续生成”的差别。

这种框架下,分割、检测、编辑、路径规划等原本割裂的视觉任务,可以被统一到同一套生成机制中。模型始终做的只有一件事:生成下一帧视频

在逐帧生成过程中,它自然完成了感知、推理与决策的协同,这就不再需要为每类任务单独设计模型或系统。

论文进一步观察到,在无需针对具体任务进行专门训练、也不引入额外监督的前提下,视频模型已经能够通过不同形式的提示,在多类视觉任务中展现出一定的零样本泛化能力。

也正因为如此,Veo 3用感知、建模、操控、推理4大核心能力能搞定62种没学过的视觉任务。



现在经过a16z投资合伙人Justine Moore和林俊旸一提醒,回看这篇论文发现,视频模型在视觉领域的的突破,还真有点当年LLM颠覆NLP的味儿了……

论文地址:https://arxiv.org/abs/2509.20328
参考链接:https://x.com/venturetwins/status/2005330176977293743

— 完 —

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
河南省最新人事任免

河南省最新人事任免

天命生商
2026-03-26 14:19:43
婚礼上,婆婆扇我一耳光,我反手把她推下台,老公在旁边拍手叫好

婚礼上,婆婆扇我一耳光,我反手把她推下台,老公在旁边拍手叫好

千秋文化
2026-03-26 21:19:57
曼谷演唱会突发!宋雨琦头部遭设备猛烈撞击,强忍疼痛坚持演完

曼谷演唱会突发!宋雨琦头部遭设备猛烈撞击,强忍疼痛坚持演完

动物奇奇怪怪
2026-03-25 17:53:25
2026年身份证就是老年证!爸妈满60岁别办证,这4件事千万不能忘

2026年身份证就是老年证!爸妈满60岁别办证,这4件事千万不能忘

复转这些年
2026-03-26 09:26:17
刘亦菲真空上阵宝格丽!身形肥硕但事业线干瘪,一个动作全网怒赞

刘亦菲真空上阵宝格丽!身形肥硕但事业线干瘪,一个动作全网怒赞

无处不风景love
2026-03-24 15:31:51
都被骗了!从王金平、张显耀到萧旭岑看透马英九的伪君子真面目

都被骗了!从王金平、张显耀到萧旭岑看透马英九的伪君子真面目

生活魔术专家
2026-03-26 11:31:55
为啥一听说给农民涨养老金,就有一群人激烈反对?真相太沉重

为啥一听说给农民涨养老金,就有一群人激烈反对?真相太沉重

复转这些年
2026-03-14 23:48:05
2026年1-2月,中国进口了全球46%的芯片,但出口了25%的芯片

2026年1-2月,中国进口了全球46%的芯片,但出口了25%的芯片

互联网.乱侃秀
2026-03-23 10:47:40
坦格西里遇袭身亡

坦格西里遇袭身亡

新浪财经
2026-03-26 23:01:14
薛之谦惹争议!挚友张雪峰离世毫无表示,知情人曝原因!

薛之谦惹争议!挚友张雪峰离世毫无表示,知情人曝原因!

古希腊掌管松饼的神
2026-03-25 22:39:53
曝张雪峰遗嘱内容,和原配离婚原因被扒,三段感情时间线全曝光!

曝张雪峰遗嘱内容,和原配离婚原因被扒,三段感情时间线全曝光!

古希腊掌管松饼的神
2026-03-26 09:30:58
比亚迪推出革命性可变磁通电机,彻底解决电动车高速掉电难题

比亚迪推出革命性可变磁通电机,彻底解决电动车高速掉电难题

娱乐圈的笔娱君
2026-03-26 17:21:17
小时候因为什么事被打半死?网友:哈哈哈,撞枪口上了

小时候因为什么事被打半死?网友:哈哈哈,撞枪口上了

夜深爱杂谈
2026-03-26 22:26:38
C罗儿子要加盟皇马?15岁迷你罗试训皇马,C罗的7号后继有人

C罗儿子要加盟皇马?15岁迷你罗试训皇马,C罗的7号后继有人

仰卧撑FTUer
2026-03-25 23:05:29
姜维和魏延谁更厉害?据正史记载,这两人压根不是一个级别的人物

姜维和魏延谁更厉害?据正史记载,这两人压根不是一个级别的人物

阿器谈史
2026-03-26 15:49:05
卷走53亿!又一大佬带全家跑路,欠中国银行20亿,投资者血本无归

卷走53亿!又一大佬带全家跑路,欠中国银行20亿,投资者血本无归

以茶带书
2025-12-09 23:33:58
江西女子晒一家五口午饭,吐槽存钱太难,网友:这样吃我也月光

江西女子晒一家五口午饭,吐槽存钱太难,网友:这样吃我也月光

荷兰豆爱健康
2026-03-26 13:59:06
学医后才知道,保护心血管最好的运动,不是快走慢跑,而是这个

学医后才知道,保护心血管最好的运动,不是快走慢跑,而是这个

垚垚分享健康
2026-03-26 13:09:39
太可恨!飞机一落地上海,女孩立马报案!更多年轻受害人浮出水面……

太可恨!飞机一落地上海,女孩立马报案!更多年轻受害人浮出水面……

环球网资讯
2026-03-26 21:48:04
张雪峰的独生女真的很有主意,父母问孩子要不要生二胎,她说不用

张雪峰的独生女真的很有主意,父母问孩子要不要生二胎,她说不用

海阔山遥YAO
2026-03-25 15:30:12
2026-03-27 00:27:00
量子位 incentive-icons
量子位
追踪人工智能动态
12348文章数 176425关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

教育
艺术
时尚
亲子
公开课

教育要闻

天天学习|走进课堂的“大朋友”

艺术要闻

哪一座桥不是风景?

400万人爱过的女孩,被黄谣网暴180天后

亲子要闻

看看把孩子吓得哈哈哈

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版