网易首页 > 网易号 > 正文 申请入驻

Qwen负责人转发2025宝藏论文,年底重读「视觉领域GPT时刻」

0
分享至

闻乐 发自 凹非寺
量子位 | 公众号 QbitAI

2025最后几天,是时候来看点年度宝藏论文了。

比如,阿里最年轻P10、Qwen大模型技术负责人林俊旸最新转发了一篇名为《Video models are zero-shot learners and reasoners》的研究。

没错,就是谷歌DeepMind提出视频模型“思维链”CoF的那篇入选ICCV 2025的论文。

当时,这篇研究还给出了一个关键信号:视觉领域的“GPT时刻”要来了。



该研究用1.8万组实验数据证明,视频模型正在跳出任务专属的局限,走上LLM的老路——

用一个模型,通过提示,完成几乎所有的视觉任务

并且,推理过程还能被CoF“演”出来。

从NLP到CV

自然语言处理领域的GPT时刻,核心是实现了一个模型通吃所有

在此之前,翻译、写作、问答等任务都各自有专属的模型,而LLM的出现,靠大规模数据训练和生成式架构,让零样本学习成为可能,模型通过文字提示就能完成各种各样的任务。

但计算机视觉领域却还一直深陷于这种碎片化的困境。

比如,要做目标检测得用YOLO,做语义分割依赖SAM,图像超分要找专门模型,3D重建还得换另一套工具。

这些针对不同任务的模型架构差异很大,不仅开发成本高,还严重限制了视觉AI的泛化能力,导致视觉AI的进步一直是单点突破。

比如这个模型在分割任务上刷新SOTA,另一个模型在检测任务上实现提速,却始终没能解决“多任务统一”的问题。



而这篇论文详解了谷歌DeepMind借鉴LLM的成功路径,让Veo 3成为了一个“视觉通才”。

通过大规模视频与文本数据的生成式训练,打通了视觉感知与语言理解的壁垒,让模型具备了跨任务的通用能力



而且Veo 3完美复刻了LLM的零样本优势,面对没专门训练过的任务,只要用文字说清需求,模型就能直接输出结果,无需额外调参或数据微调。

这也正是说视觉GPT时刻到来的核心标志。

从生成视频到用视频思考

就像林俊旸提到的那样,这篇论文指出视频模型一个非常关键的变化在于——视频不再只是输出的形式,也开始体现推理的过程。

模型在生成视频的过程中,会逐步展开中间状态,这就让推理不再是完全不可见的黑箱。

论文中将这种现象称为Chain-of-Frames,也就是CoF,类似于语言模型中的CoT,只不过视频模型是通过连续生成的视频帧,把整个推理过程“演”出来。

模型在时间和空间中不断调整画面,用可见的变化替代抽象的符号推理。



因此,无论是解迷宫、做路径规划,还是进行规则外推,模型都不是一次性输出结果,而是在连续的视觉变化中逐步逼近正确解。

推理过程则被隐含地编码在视频序列之中,视频模型开始在过程中思考

正是这种“逐帧生成即推理”的方式,为通用性提供了基础。
因为模型不再围绕某一个具体任务去算结果,转而在统一的生成过程中,不断更新对场景状态的理解。

不同任务之间的差异,不再体现在模型结构或输出形式上,而是被压缩成了“生成过程中关注什么、如何继续生成”的差别。

这种框架下,分割、检测、编辑、路径规划等原本割裂的视觉任务,可以被统一到同一套生成机制中。模型始终做的只有一件事:生成下一帧视频

在逐帧生成过程中,它自然完成了感知、推理与决策的协同,这就不再需要为每类任务单独设计模型或系统。

论文进一步观察到,在无需针对具体任务进行专门训练、也不引入额外监督的前提下,视频模型已经能够通过不同形式的提示,在多类视觉任务中展现出一定的零样本泛化能力。

也正因为如此,Veo 3用感知、建模、操控、推理4大核心能力能搞定62种没学过的视觉任务。



现在经过a16z投资合伙人Justine Moore和林俊旸一提醒,回看这篇论文发现,视频模型在视觉领域的的突破,还真有点当年LLM颠覆NLP的味儿了……

论文地址:https://arxiv.org/abs/2509.20328
参考链接:https://x.com/venturetwins/status/2005330176977293743

— 完 —

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
美国战争研究所:沃尔昌斯克方向换上新指挥官,推进速度明显加快

美国战争研究所:沃尔昌斯克方向换上新指挥官,推进速度明显加快

碳基生物关怀组织
2026-02-03 23:04:52
疯了?梅西密谈欧冠豪门竟提霸王条款,全足坛集体看懵!

疯了?梅西密谈欧冠豪门竟提霸王条款,全足坛集体看懵!

澜归序
2026-02-03 17:23:04
发现个奇怪现象:电车没有“干掉”油车,却“干掉”了汽车修理厂

发现个奇怪现象:电车没有“干掉”油车,却“干掉”了汽车修理厂

刘哥谈体育
2026-01-19 11:46:50
随着利雅得胜利1-0,新月3连平,沙特联最新排名积分榜如下!

随着利雅得胜利1-0,新月3连平,沙特联最新排名积分榜如下!

薇说体育
2026-02-03 16:47:13
樊振东回归国乒!乒协官宣:全运会男单冠军 直接参加团体世乒赛

樊振东回归国乒!乒协官宣:全运会男单冠军 直接参加团体世乒赛

念洲
2026-02-03 16:55:33
萝莉岛终极解密,吃“人肉”只是冰山一角?妇女儿童连牲口都不如

萝莉岛终极解密,吃“人肉”只是冰山一角?妇女儿童连牲口都不如

青梅侃史啊
2026-02-03 17:09:43
罕见!3大前总统再度出山,鼓动全体美国人反抗,特朗普知道怕了

罕见!3大前总统再度出山,鼓动全体美国人反抗,特朗普知道怕了

议纪史
2026-02-02 16:55:03
美媒报道:2008年跳楼自杀的顶级模特鲁斯拉娜,的确是萝莉岛女孩

美媒报道:2008年跳楼自杀的顶级模特鲁斯拉娜,的确是萝莉岛女孩

老范谈史
2025-12-24 17:24:57
前北约指挥官:10年内中美若开战,中国必败,美国有一秘密武器

前北约指挥官:10年内中美若开战,中国必败,美国有一秘密武器

桑启红原
2026-02-02 22:23:42
英媒:曼联未决定是否续约马奎尔,他愿意把周薪降低8万镑

英媒:曼联未决定是否续约马奎尔,他愿意把周薪降低8万镑

懂球帝
2026-02-03 21:09:09
一斤烟丝能卷500支烟,不少网友图省钱跑网上购买违规烟丝

一斤烟丝能卷500支烟,不少网友图省钱跑网上购买违规烟丝

映射生活的身影
2026-02-03 21:27:43
​亏损超5.5亿,中美观众都不买账,2026年第一票房惨案诞生了‍

​亏损超5.5亿,中美观众都不买账,2026年第一票房惨案诞生了‍

靠谱电影君
2026-02-02 21:12:28
破坏王菲家庭,大着肚子嫁窦唯却两年就离婚,54岁高原如今怎样了

破坏王菲家庭,大着肚子嫁窦唯却两年就离婚,54岁高原如今怎样了

揽星河的笔记
2026-02-03 20:10:44
金价到底能不能跌回500多一克?答案可能超出预期?

金价到底能不能跌回500多一克?答案可能超出预期?

爱看剧的阿峰
2026-02-03 02:12:06
我在芬兰见雇主家暖气不热,顺手修了,第5天小镇的人都赶过来了

我在芬兰见雇主家暖气不热,顺手修了,第5天小镇的人都赶过来了

三农老历
2026-01-30 11:25:43
哭穷?26岁前国乒名将:我年薪50万 在上海仅够温饱 绝无财富自由

哭穷?26岁前国乒名将:我年薪50万 在上海仅够温饱 绝无财富自由

念洲
2026-02-03 16:01:29
严屹宽老婆41岁生日,夫妻俩甜蜜亲脸,婆婆送杜若溪万元大红包

严屹宽老婆41岁生日,夫妻俩甜蜜亲脸,婆婆送杜若溪万元大红包

爱八卦的晓请
2026-02-03 21:37:11
日本综艺有多变态?看完下面这些,保证你菊花一紧!

日本综艺有多变态?看完下面这些,保证你菊花一紧!

日本窗
2026-02-02 17:28:30
我能接受高圆圆已经46岁了,也能接受她和赵又廷有了孩子,

我能接受高圆圆已经46岁了,也能接受她和赵又廷有了孩子,

小光侃娱乐
2025-12-20 11:25:07
千万不要指望孩子自觉:那些高度自律的孩子,父母都做对了3件事

千万不要指望孩子自觉:那些高度自律的孩子,父母都做对了3件事

诗词中国
2026-02-03 19:53:45
2026-02-04 01:16:49
量子位 incentive-icons
量子位
追踪人工智能动态
12106文章数 176370关注度
往期回顾 全部

科技要闻

1.25万亿美元!xAI员工赢麻了

头条要闻

挪威王储妃给爱泼斯坦发暧昧邮件:你让我兴奋

头条要闻

挪威王储妃给爱泼斯坦发暧昧邮件:你让我兴奋

体育要闻

“也许我的一小步,会成为中国足球的一大步”

娱乐要闻

大S逝世一周年 S家没通知大S子女惹争议

财经要闻

中央一号文件:扎实推进乡村全面振兴

汽车要闻

上汽决定不再等那个“正确答案”了

态度原创

艺术
手机
本地
公开课
军事航空

艺术要闻

成都在建第一高楼冲刺300米!

手机要闻

vivo X300 Ultra入网,大量爆料已出现

本地新闻

云游中国|拨开云雾,巫山每帧都是航拍大片

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

特朗普:庞大兵力将很快抵达伊朗

无障碍浏览 进入关怀版