网易首页 > 网易号 > 正文 申请入驻

大模型时代,通用视觉模型将何去何从?

0
分享至

过去几年,通用视觉模型(Vision Generalist Model,简称 VGM)曾是计算机视觉领域的研究热点。它们试图构建统一的架构,能够处理图像、点云、视频等多种视觉模态输入,以及分类、检测、分割等多样的下游任务,向着「视觉模型大一统」的目标迈进。

然而,随着大语言模型 LLM 的迅猛发展,研究热点已经悄然发生转移。如今,多模态大模型兴起,视觉被看作是语言模型众多输入模态中的一种,视觉模态数据被离散化为 Token,与文本一起被统一建模,视觉的「独立性」正在被重新定义。

在这种趋势下,传统意义上以视觉任务为核心、以视觉范式为驱动的通用视觉模型研究,似乎正在逐渐被边缘化。然而,我们认为视觉领域仍应保有自己的特色和研究重点。与语言数据相比,视觉数据具有结构化强、空间信息丰富等天然优势,但也存在视觉模态间差异大、难替代的挑战。例如:如何统一处理 2D 图像、3D 点云和视频流等异质输入?如何设计统一的输出表示来同时支持像素级分割和目标检测等不同任务?这些问题在当前的多模态范式中并未被充分解决。

正因如此,在这个多模态模型席卷科研与工业的新时代,回顾并总结纯视觉范式下的通用视觉模型研究仍然是一件十分有意义的事情。清华大学自动化系鲁继文团队最近发表于 IJCV 的综述论文系统梳理了该方向的研究进展,涵盖输入统一方法、任务通用策略、模型框架设计、模型评测应用等内容,希望能为未来视觉模型的发展提供参考与启发。

  • 论文标题:Vision Generalist Model: A Survey
  • 论文链接:
  • https://arxiv.org/abs/2506.09954

VGM 到底解决了什么问题?

通用视觉模型是一种能够处理多种视觉任务和模态输入的模型框架。类似于大语言模型在自然语言处理中的成功,VGM 旨在通过构建一个统一的架构来解决各种计算机视觉任务。传统的视觉模型通常针对特定任务(如图像分类、目标检测、语义分割等)设计,而 VGM 通过广泛的预训练和共享表示,能够在不同的视觉任务之间实现零样本(Zero-shot)迁移,从而无需为每个任务进行专门的调整。

VGM 的关键能力之一是其多模态输入的统一处理能力。不同于传统模型只处理单一类型的视觉数据,VGM 能够同时处理来自多个模态的数据,如图像、点云、视频等,并通过统一的表示方法将它们映射到共享的特征空间。

此外,VGM 还具备强大的多任务学习能力,能够在同一个模型中处理多个视觉任务,从图像识别到视频分析,所有任务都可以在一个通用框架下并行处理。

综述涵盖了哪些核心内容?

数据 + 任务 + 评测:为通用建模打基础

VGM 通常使用大规模、多样化的数据集进行训练和评估。为了支持多模态学习,VGM 使用的训练数据集涵盖了图像、视频、点云等多种类型,本综述列举并介绍了一些常见的多模态数据集。

任务方面,本综述将视觉任务分为四类:图像任务、几何任务、时间序列任务以及其他视觉相关任务。评测方面,主要通过多个综合基准来衡量其在多种任务和数据集上的表现。与传统的单一任务评测不同,现代评测方法更注重模型的跨任务泛化和多模态处理能力。本综述也对现有通用视觉模型的评测基准做了充分的调研与总结。

模型设计范式与技术补充

现有通用视觉模型的设计范式主要集中在如何统一处理不同视觉模态输入和多样化任务输出,大致可以分为两种类型:编码式框架和序列到序列框架。

编码式框架(Encoding-based Framework)旨在通过构建一个共享的特征空间来统一不同的输入模态,并使用 Transformer 等模型进行编码。这类框架通常包括领域特定的编码器来处理不同类型的数据,如图像、文本和音频,然后通过共享的 Transformer 结构进行进一步处理,最终生成统一的输出。

而序列到序列框架(Sequence-to-Sequence Framework)则借鉴了自然语言处理中的序列建模方法,将输入数据转换为固定长度的表示,然后通过解码器生成相应的输出。这些框架特别适合处理具有可变长度输入输出的任务,如图像生成和视频分析。

尽管有一些工作并不能被定义为通用视觉模型,但它们在联合多模态数据输入、模型架构设计、协同处理多任务输出等方面做出了卓越的技术贡献。本综述也对这些技术进行了详尽的讨论分析。一些相关领域的内容,如多任务学习、视觉-语言学习、开放词汇,也被用来扩充通用视觉模型领域的知识边界。

此外,作为一个 case study,本综述对比了收录了多个主流 VGM 模型在 22 个基准数据集上的评测结果:

VGM 的未来在哪里?

最后,本综述总结了 VGM 的当前研究进展和面临的挑战,还强调了其在实际应用中的潜力和未来发展方向。

现有 VGM 在多个任务和多模态输入的统一处理方面已经取得了显著的进展,但仍面临着如何优化统一框架设计、提高训练效率和应对大规模数据等挑战。数据获取和标注仍然是 VGM 发展的瓶颈。

为了解决这一问题,自动化标注技术以及大规模无监督学习方法的研究将成为未来的研究重点。然而,随着模型规模的扩大,VGM 也面临着伦理问题和偏见的挑战。大量未标注的数据中可能包含潜在的偏见,如何确保模型的公平性、透明性和安全性,仍是未来研究中的重要课题。

尽管如此,现有的 VGM 在实际应用中展示了广泛的潜力。它不仅可以用于传统的视觉任务,如图像分类、目标检测和语义分割,还能扩展到更复杂的多模态任务,如视觉问答、图像-文本检索、视频理解等。这些应用涵盖了智能监控、自动驾驶、机器人等多个领域,推动了 VGM 在实际场景中的广泛部署。

希望这篇文章能给研究中的你一些启发。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
和刘涛分手后,他常年定居上海,如今身价过亿,年过60却依旧单身

和刘涛分手后,他常年定居上海,如今身价过亿,年过60却依旧单身

一盅情怀
2026-04-28 12:22:02
湖人遭重创!肯纳德G2出战成疑,布朗尼要临危受命?

湖人遭重创!肯纳德G2出战成疑,布朗尼要临危受命?

仰卧撑FTUer
2026-05-07 09:25:02
两江总督的两江具体所指哪里?两广总督?湖广总督是否涵盖广东

两江总督的两江具体所指哪里?两广总督?湖广总督是否涵盖广东

鹤羽说个事
2026-05-05 22:50:44
湖人天塌了!东契奇亲承休战8周,打雷霆大概率报销

湖人天塌了!东契奇亲承休战8周,打雷霆大概率报销

仰卧撑FTUer
2026-05-07 09:25:02
女子抢方向盘致车祸:人民法治定性,最高判1年,更严重的在后面

女子抢方向盘致车祸:人民法治定性,最高判1年,更严重的在后面

番外行
2026-05-07 09:51:27
婆婆七十大寿让我别去,我微笑点头,晚上丈夫来电:全家都等你呢

婆婆七十大寿让我别去,我微笑点头,晚上丈夫来电:全家都等你呢

青青会讲故事
2025-10-05 16:30:02
为什么说新西兰没几个中国人待得住?网友:待了几个月,都快疯了

为什么说新西兰没几个中国人待得住?网友:待了几个月,都快疯了

小正说娱乐
2026-05-05 08:19:18
世界上34%国家仍坚持右舵,中国放弃右舵原因,竟和美国援助有关

世界上34%国家仍坚持右舵,中国放弃右舵原因,竟和美国援助有关

小虎新车推荐员
2026-05-05 20:59:25
四川省“臭名远扬”的4所大学,毕业证形同虚设,学生请擦亮眼睛

四川省“臭名远扬”的4所大学,毕业证形同虚设,学生请擦亮眼睛

时光流转追梦人
2026-05-07 02:49:16
爆火出圈!刘雨鑫、马頔接连打卡,网友:随便一家都好吃

爆火出圈!刘雨鑫、马頔接连打卡,网友:随便一家都好吃

中山网
2026-05-06 13:17:31
爸爸吐槽裤子太短把女儿气哭:这暴露个啥了!

爸爸吐槽裤子太短把女儿气哭:这暴露个啥了!

另子维爱读史
2026-05-05 10:12:47
47岁高圆圆在公园被抓拍,麒麟臂、凉拖鞋,活脱脱一个买菜大姐

47岁高圆圆在公园被抓拍,麒麟臂、凉拖鞋,活脱脱一个买菜大姐

胖松松与瘦二毛
2026-05-06 12:40:53
从自负球星堆砌之师蜕变为全能劲旅,为何巴黎是阿森纳的终极考验

从自负球星堆砌之师蜕变为全能劲旅,为何巴黎是阿森纳的终极考验

体坛关键帧
2026-05-07 09:36:15
动真格!同济大学涉事院长被免,二级教授降两级,第一作者遭解聘

动真格!同济大学涉事院长被免,二级教授降两级,第一作者遭解聘

东东趣谈
2026-05-07 10:36:54
德雷森:让仅执法过15场欧冠的裁判执法这级别的比赛让人惊讶

德雷森:让仅执法过15场欧冠的裁判执法这级别的比赛让人惊讶

懂球帝
2026-05-07 06:21:03
日本刚收到“天大好消息”,转身发现中国通告全球,不怕把事闹大

日本刚收到“天大好消息”,转身发现中国通告全球,不怕把事闹大

忠于法纪
2026-05-07 10:26:23
黑尾酱,彻底消失了?

黑尾酱,彻底消失了?

生如稗草
2026-03-15 08:48:11
索尼促销:电视最高45%折扣,耳机相机同步降价

索尼促销:电视最高45%折扣,耳机相机同步降价

我是一个粉刷匠2
2026-05-05 10:15:37
学医后才明白,预防骨质疏松最好的习惯,不是晒太阳,而是3件事

学医后才明白,预防骨质疏松最好的习惯,不是晒太阳,而是3件事

垚垚分享健康
2026-05-04 19:15:04
广东队为什么输给北京?奎因毫不客气说出原因,一番话说得真实在

广东队为什么输给北京?奎因毫不客气说出原因,一番话说得真实在

丁蓳解说
2026-05-07 06:55:38
2026-05-07 11:08:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12932文章数 142644关注度
往期回顾 全部

科技要闻

凌晨突发!马斯克租22万块GPU给“死敌”

头条要闻

牛弹琴:一位特殊的客人来到北京 提到一句话很关键

头条要闻

牛弹琴:一位特殊的客人来到北京 提到一句话很关键

体育要闻

阿森纳巴黎会师欧冠决赛!5月31日开战

娱乐要闻

小S阿雅重返大S母校,翻看大S毕业照

财经要闻

特朗普:美伊“很有可能”达成协议

汽车要闻

从没人做到抢着做,71台概念车揭开中国汽车下一个时代

态度原创

健康
本地
数码
时尚
公开课

干细胞治烧烫伤面临这些“瓶颈”

本地新闻

用青花瓷的方式,打开西溪湿地

数码要闻

AMD下代X970E主板不换芯!但终于完整支持CUDIMM/CAMM

“白色阔腿裤”今年夏天又火了!这样穿时髦又高级

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版