网易首页 > 网易号 > 正文 申请入驻

读万卷书,大模型「看」懂视觉世界?Meta揭秘LLM视觉先验的起源

0
分享至



一个只见过文本的大语言模型(LLM),在从未直接看过图像的情况下,竟然能学到可迁移到视觉任务的先验能力 —— 这是 Meta Superintelligence Labs 与牛津团队新论文的发现。

近日,Meta 超级智能实验室(Meta Superintelligence Labs)与牛津大学的研究者发布了一篇长达 33 页的重磅论文,通过超过 100 组受控实验、耗费 50 万 GPU 小时的庞大研究,系统性地揭开了 LLM 视觉先验的来源。 作者提出,视觉先验可分为「推理先验」和「感知先验」,并给出了一套预训练的数据混合配方,用于在只用文本预训练阶段就「播下」视觉能力的种子。

这项研究不仅解释了 LLM 无师自通学会看的秘密,更提出了一套预训练的数据配方,旨在从语言预训练阶段就有意地培养模型的视觉能力,为下一代更强大的多模态大模型铺平道路。



  • 论文标题:Learning to See Before Seeing: Demystifying LLM Visual Priors from Language Pre-training
  • 论文链接:https://arxiv.org/pdf/2509.26625
  • 项目地址:
  • https://junlinhan.github.io/projects/lsbs/

核心洞察:LLM 视觉先验并非铁板一块,源于两种独立的「先验知识」

研究最重要的发现是,LLM 从语言中获得的「视觉先验」(Visual Priors)并非单一的能力,而是可以分解为两种来源和特性截然不同的部分:

  1. 推理先验 (Reasoning Prior):一种更抽象、跨模态的通用能力。它主要通过预训练以推理为中心的数据(如代码、数学、学术论文)来获得。就像人类通过学习逻辑和数学来构建推理框架一样,LLM 通过学习这些结构化文本,掌握了可迁移的、普适的推理能力,这种能力可以直接应用于解决复杂的视觉问题。

  2. 感知先验 (Perception Prior):这更侧重于对具体视觉概念的认知,比如识别物体的颜色、形状和名称。这种能力并非来自某一特定类型的数据,而是从广泛、多样的通用语料(如网页抓取)中「弥散式」地浮现出来。多模态大模型的感知能力对视觉指令微调和所选用的视觉编码器更为敏感。

关键发现:少量视觉描述就够,海量推理数据是关键




大量实验:系统性揭秘 LLM 的视觉先验

团队进行了一系列精巧的实验,实验采用常见的 adapter-style 多模态适配流程 —— 先在只读文本的基础上预训练多种解码器式 LLM(沿用 Llama-3 风格架构,模型尺度从 340M 到 13B 不等,核心对比以 3B/7B 模型 为主),然后用同样的「视觉对齐 + 监督微调」的两阶段流程把视觉能力接入来衡量视觉先验,得出了 6 个结论并引入 3 个假设,这里节选:

  • 能力的起源有迹可循:通过对 16 种不同单一数据源的独立训练,研究发现,在「代码」「数学」和「学术」数据上训练的模型,在需要抽象推理的视觉任务(Vision-Centric VQA)上表现最好。



  • 推理数据多多益善,视觉数据很快饱和:实验表明,在预训练数据中,不断增加推理密集型文本(如代码)的比例,模型的下游视觉推理能力会持续、显著地提升,直到占比达到 75% 左右。与此形成鲜明对比的是,描述视觉世界的文本(如描述颜色、形状、位置的文字)虽然重要,但其效果会迅速饱和。只需一小部分这类数据为模型打下基础,再多就收效甚微了。



  • 推理能力是通用的,感知能力更依赖「后天」:研究进一步证实,「推理先验」是独立于视觉编码器的通用能力。无论后期与哪种视觉模块结合,只要 LLM 在预训练阶段学到了强大的推理能力,其多模态系统的推理表现都会相应提升。而「感知先验」则不同,它更依赖于后期的视觉微调数据和视觉编码器本身的特性。



简单来说,想要让一个 LLM 拥有强大的视觉潜力,关键不是给它读无数遍「天空是蓝色的」,而是让它通过解数学题、读代码来把「脑子」练聪明。

从理论到实践:一份增强视觉先验的数据预训练配方

基于以上发现,研究团队的目标从「解释现象」转向了「主动创造」。他们通过系统的实验,最终调配出了一套最优的数据混合方案,旨在平衡模型的语言能力和视觉潜力。

实验结果表明,通过采用这种富含推理内容、同时配有适量视觉世界知识的「平衡配方」(Balanced model),训练出的 7B 模型在语言能力上与专门优化语言任务的预训配方训练的模型达到了更优,同时在所有视觉基准测试中都实现了全面超越。

这证明了,通过精心设计文本预训练数据,我们可以「未卜先知」地为模型注入强大的视觉先验。



意义与展望

这项研究的意义深远,它将多模态模型能力的培养,从依赖下游微调提前到了语言预训练阶段。

它展示了,核心的推理能力是一种可迁移、与模态无关的基石。这为「柏拉图表征假说」(Platonic Representation Hypothesis)提供了有力的经验支持 —— 即文本和图像只是现实世界在不同模态下的「投影」,一个足够强大的模型可以仅从一种投影中,学习到这个世界的统一内在结构。

未来,LLM 的预训练将不再仅仅是单模态的事。模型设计者从一开始就可以考虑其未来的多模态应用,通过在预训练阶段「播下视觉的种子」,来构建一个更强大的跨模态智能基础。

更多技术细节和实验分析,请参阅原论文。

作者介绍

韩俊霖(Junlin Han)是这篇论文的第一作者兼项目负责人。他目前是 Meta 超级智能实验室的研究员,同时也是牛津大学 Torr Vision Group 的博士生,师从 Philip Torr 教授。他的研究兴趣聚焦多模态智能系统,先后在跨模态数据生成、3D 生成模型等领域开展研究。此前,他以一等荣誉毕业于澳大利亚国立大学,曾在顶级会议多次发表重要研究成果并组织研讨会。

文章第二作者 Peter Tong(童晟邦 / Shengbang Tong),目前是纽约大学 Courant 计算机科学系的博士生,导师包括 Yann LeCun 和 Saining Xie。他曾在伯克利人工智能实验室 (BAIR) 进行本科研究,师从马毅教授。研究方向包括世界模型 (world model)、无监督 / 自监督学习、生成模型与多模态模型。他曾获得了 OpenAI Superalignment Fellowship 和 Meta 的博士项目资助。

第三作者 David Fan现任 Meta FAIR 的高级研究工程师。他的研究方向集中在多模态表征学习、视频理解 / 自监督学习等领域。 在加入 FAIR 之前,他曾在 Amazon Prime Video 担任 Applied Research Scientist,参与视觉 - 语言 - 音频融合模型、视频理解和推荐系统等真实产品项目。他于普林斯顿大学获得计算机科学学位。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
刚上台就变脸?国台办发出武统信号后,郑丽文回应不放弃武力保台

刚上台就变脸?国台办发出武统信号后,郑丽文回应不放弃武力保台

小lu侃侃而谈
2025-11-04 19:07:59
美参议院通过决议终止特朗普关税政策,但众议院预计无法通过

美参议院通过决议终止特朗普关税政策,但众议院预计无法通过

合赞历史
2025-11-05 15:27:21
京剧大师周信芳不听夫人劝告坚决留大陆,卷入政治洪流成为牺牲品

京剧大师周信芳不听夫人劝告坚决留大陆,卷入政治洪流成为牺牲品

南极狼人
2025-11-05 17:44:34
今夜,直线拉升!特朗普,改口了!

今夜,直线拉升!特朗普,改口了!

中国基金报
2025-11-06 00:23:17
现在最后悔的,应该就是徐志胜的品牌方,因为他实在“难堪大用”

现在最后悔的,应该就是徐志胜的品牌方,因为他实在“难堪大用”

一娱三分地
2025-11-05 20:50:52
伟大1-0!亚洲球队逆袭:欧冠历史首胜 仅建队11年 现场万人狂欢

伟大1-0!亚洲球队逆袭:欧冠历史首胜 仅建队11年 现场万人狂欢

侃球熊弟
2025-11-06 03:41:47
网友好奇,国外全球反诈论坛我们为什么不参加?评论区一言难尽

网友好奇,国外全球反诈论坛我们为什么不参加?评论区一言难尽

眼光很亮
2025-11-05 10:40:13
欧冠惨案诞生!英超豪强踢疯了,狂轰4球,超级后卫长途奔袭破门

欧冠惨案诞生!英超豪强踢疯了,狂轰4球,超级后卫长途奔袭破门

足球狗说
2025-11-05 06:08:44
伊朗六年投入数千亿,想让日本妇女蒙头巾

伊朗六年投入数千亿,想让日本妇女蒙头巾

通往远方的路
2025-11-05 09:29:10
刚一发布,瞬间暴涨200%!有人立马出手:好怕抢不到

刚一发布,瞬间暴涨200%!有人立马出手:好怕抢不到

河南交通广播1041
2025-11-05 16:45:24
欧冠综述:曼城4-1多特!巴萨爆冷3-3,国米开局4连胜+穆帅4连败

欧冠综述:曼城4-1多特!巴萨爆冷3-3,国米开局4连胜+穆帅4连败

我爱英超
2025-11-06 05:59:32
国家出手了!倒查风暴席卷全国,释放什么信号?

国家出手了!倒查风暴席卷全国,释放什么信号?

保德全
2025-11-05 19:30:03
邵佳一成为国足主帅的背后:决策权不在中国足协,宋凯如释重负

邵佳一成为国足主帅的背后:决策权不在中国足协,宋凯如释重负

姜大叔侃球
2025-11-05 19:20:12
曼城4-1多特!欧冠四轮不败杀进前四 哈兰德破门创历史 福登双响

曼城4-1多特!欧冠四轮不败杀进前四 哈兰德破门创历史 福登双响

侃球熊弟
2025-11-06 05:20:34
李想夫妇山姆购物被偶遇 全程使用iPhone Air超薄手机

李想夫妇山姆购物被偶遇 全程使用iPhone Air超薄手机

手机中国
2025-11-05 11:53:09
5年前,被“骗”到乳山买10万海景房的那些人,现状很扎心!

5年前,被“骗”到乳山买10万海景房的那些人,现状很扎心!

青眼财经
2025-11-05 21:13:34
乌克兰公布“罕见”作战画面!外媒:乌特种部队乘“黑鹰”直升机突袭波克罗夫斯克

乌克兰公布“罕见”作战画面!外媒:乌特种部队乘“黑鹰”直升机突袭波克罗夫斯克

环球网资讯
2025-11-05 16:09:59
杭州网红“大逃亡”,网红之都跌落神坛!

杭州网红“大逃亡”,网红之都跌落神坛!

财经三分钟pro
2025-11-05 13:58:59
网传康熙是洪承畴的私生子?基因检测惊曝清宫秘闻,专家回应了!

网传康熙是洪承畴的私生子?基因检测惊曝清宫秘闻,专家回应了!

你食不食油饼
2025-11-05 20:06:29
国足选帅如同儿戏,足协说了不算惨遭打脸!不可抗的因素选邵佳一

国足选帅如同儿戏,足协说了不算惨遭打脸!不可抗的因素选邵佳一

中国足球的那些事儿
2025-11-05 19:46:13
2025-11-06 06:08:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
11656文章数 142499关注度
往期回顾 全部

科技要闻

大转弯!特朗普再提名马斯克盟友任NASA局长

头条要闻

美国肯塔基州州长:本州进入紧急状态

头条要闻

美国肯塔基州州长:本州进入紧急状态

体育要闻

赢下皇马,会是利物浦的转折点吗?

娱乐要闻

港星林尚武突发心脏病去世

财经要闻

事关加快建设金融强国 中央金融办发声

汽车要闻

智己LS9入局"9系"混战 全尺寸SUV市场迎来新变量

态度原创

房产
游戏
家居
数码
公开课

房产要闻

最新!海南楼市10月热销榜单出炉!

一份游戏双平台玩!PS5/PC跨平台购买标志新发现

家居要闻

别样府院 畅享诗意生活

数码要闻

小米POCO X1平板现身Geekbench 搭载骁龙7+ Gen 3

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版