网易首页 > 网易号 > 正文 申请入驻

读万卷书,大模型「看」懂视觉世界?Meta揭秘LLM视觉先验的起源

0
分享至

一个只见过文本的大语言模型(LLM),在从未直接看过图像的情况下,竟然能学到可迁移到视觉任务的先验能力 —— 这是 Meta Superintelligence Labs 与牛津团队新论文的发现。

近日,Meta 超级智能实验室(Meta Superintelligence Labs)与牛津大学的研究者发布了一篇长达 33 页的重磅论文,通过超过 100 组受控实验、耗费 50 万 GPU 小时的庞大研究,系统性地揭开了 LLM 视觉先验的来源。 作者提出,视觉先验可分为「推理先验」和「感知先验」,并给出了一套预训练的数据混合配方,用于在只用文本预训练阶段就「播下」视觉能力的种子。

这项研究不仅解释了 LLM 无师自通学会看的秘密,更提出了一套预训练的数据配方,旨在从语言预训练阶段就有意地培养模型的视觉能力,为下一代更强大的多模态大模型铺平道路。

  • 论文标题:Learning to See Before Seeing: Demystifying LLM Visual Priors from Language Pre-training
  • 论文链接:https://arxiv.org/pdf/2509.26625
  • 项目地址:
  • https://junlinhan.github.io/projects/lsbs/

核心洞察:LLM 视觉先验并非铁板一块,源于两种独立的「先验知识」

研究最重要的发现是,LLM 从语言中获得的「视觉先验」(Visual Priors)并非单一的能力,而是可以分解为两种来源和特性截然不同的部分:

  1. 推理先验 (Reasoning Prior):一种更抽象、跨模态的通用能力。它主要通过预训练以推理为中心的数据(如代码、数学、学术论文)来获得。就像人类通过学习逻辑和数学来构建推理框架一样,LLM 通过学习这些结构化文本,掌握了可迁移的、普适的推理能力,这种能力可以直接应用于解决复杂的视觉问题。

  2. 感知先验 (Perception Prior):这更侧重于对具体视觉概念的认知,比如识别物体的颜色、形状和名称。这种能力并非来自某一特定类型的数据,而是从广泛、多样的通用语料(如网页抓取)中「弥散式」地浮现出来。多模态大模型的感知能力对视觉指令微调和所选用的视觉编码器更为敏感。

关键发现:少量视觉描述就够,海量推理数据是关键


大量实验:系统性揭秘 LLM 的视觉先验

团队进行了一系列精巧的实验,实验采用常见的 adapter-style 多模态适配流程 —— 先在只读文本的基础上预训练多种解码器式 LLM(沿用 Llama-3 风格架构,模型尺度从 340M 到 13B 不等,核心对比以 3B/7B 模型 为主),然后用同样的「视觉对齐 + 监督微调」的两阶段流程把视觉能力接入来衡量视觉先验,得出了 6 个结论并引入 3 个假设,这里节选:

  • 能力的起源有迹可循:通过对 16 种不同单一数据源的独立训练,研究发现,在「代码」「数学」和「学术」数据上训练的模型,在需要抽象推理的视觉任务(Vision-Centric VQA)上表现最好。

  • 推理数据多多益善,视觉数据很快饱和:实验表明,在预训练数据中,不断增加推理密集型文本(如代码)的比例,模型的下游视觉推理能力会持续、显著地提升,直到占比达到 75% 左右。与此形成鲜明对比的是,描述视觉世界的文本(如描述颜色、形状、位置的文字)虽然重要,但其效果会迅速饱和。只需一小部分这类数据为模型打下基础,再多就收效甚微了。

  • 推理能力是通用的,感知能力更依赖「后天」:研究进一步证实,「推理先验」是独立于视觉编码器的通用能力。无论后期与哪种视觉模块结合,只要 LLM 在预训练阶段学到了强大的推理能力,其多模态系统的推理表现都会相应提升。而「感知先验」则不同,它更依赖于后期的视觉微调数据和视觉编码器本身的特性。

简单来说,想要让一个 LLM 拥有强大的视觉潜力,关键不是给它读无数遍「天空是蓝色的」,而是让它通过解数学题、读代码来把「脑子」练聪明。

从理论到实践:一份增强视觉先验的数据预训练配方

基于以上发现,研究团队的目标从「解释现象」转向了「主动创造」。他们通过系统的实验,最终调配出了一套最优的数据混合方案,旨在平衡模型的语言能力和视觉潜力。

实验结果表明,通过采用这种富含推理内容、同时配有适量视觉世界知识的「平衡配方」(Balanced model),训练出的 7B 模型在语言能力上与专门优化语言任务的预训配方训练的模型达到了更优,同时在所有视觉基准测试中都实现了全面超越。

这证明了,通过精心设计文本预训练数据,我们可以「未卜先知」地为模型注入强大的视觉先验。

意义与展望

这项研究的意义深远,它将多模态模型能力的培养,从依赖下游微调提前到了语言预训练阶段。

它展示了,核心的推理能力是一种可迁移、与模态无关的基石。这为「柏拉图表征假说」(Platonic Representation Hypothesis)提供了有力的经验支持 —— 即文本和图像只是现实世界在不同模态下的「投影」,一个足够强大的模型可以仅从一种投影中,学习到这个世界的统一内在结构。

未来,LLM 的预训练将不再仅仅是单模态的事。模型设计者从一开始就可以考虑其未来的多模态应用,通过在预训练阶段「播下视觉的种子」,来构建一个更强大的跨模态智能基础。

更多技术细节和实验分析,请参阅原论文。

作者介绍

韩俊霖(Junlin Han)是这篇论文的第一作者兼项目负责人。他目前是 Meta 超级智能实验室的研究员,同时也是牛津大学 Torr Vision Group 的博士生,师从 Philip Torr 教授。他的研究兴趣聚焦多模态智能系统,先后在跨模态数据生成、3D 生成模型等领域开展研究。此前,他以一等荣誉毕业于澳大利亚国立大学,曾在顶级会议多次发表重要研究成果并组织研讨会。

文章第二作者 Peter Tong(童晟邦 / Shengbang Tong),目前是纽约大学 Courant 计算机科学系的博士生,导师包括 Yann LeCun 和 Saining Xie。他曾在伯克利人工智能实验室 (BAIR) 进行本科研究,师从马毅教授。研究方向包括世界模型 (world model)、无监督 / 自监督学习、生成模型与多模态模型。他曾获得了 OpenAI Superalignment Fellowship 和 Meta 的博士项目资助。

第三作者 David Fan现任 Meta FAIR 的高级研究工程师。他的研究方向集中在多模态表征学习、视频理解 / 自监督学习等领域。 在加入 FAIR 之前,他曾在 Amazon Prime Video 担任 Applied Research Scientist,参与视觉 - 语言 - 音频融合模型、视频理解和推荐系统等真实产品项目。他于普林斯顿大学获得计算机科学学位。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
主播明明离开东方甄选后开启首次直播,地点在陕西商洛老家,开播数分钟后主动关闭打赏:明明还可以,不用大家打赏

主播明明离开东方甄选后开启首次直播,地点在陕西商洛老家,开播数分钟后主动关闭打赏:明明还可以,不用大家打赏

极目新闻
2026-05-03 10:40:39
2003年,我在山西见过一个人被活活吓死,直到现在仍然是满腹狐疑

2003年,我在山西见过一个人被活活吓死,直到现在仍然是满腹狐疑

人间百态大全
2026-05-03 06:50:03
中国代表:要防止朝鲜半岛生战生乱

中国代表:要防止朝鲜半岛生战生乱

新华社
2026-05-01 09:27:03
回报暴涨超十倍!张雪机车一战封神,资本50亿争抢投资,执意加码

回报暴涨超十倍!张雪机车一战封神,资本50亿争抢投资,执意加码

阿伧说事
2026-04-24 18:47:53
赖清德宣布窜访成功后,中国大陆的表态,会让赖清德感到一阵后怕

赖清德宣布窜访成功后,中国大陆的表态,会让赖清德感到一阵后怕

共工之锚
2026-05-03 00:03:27
这张罗斯,得有百分之八十的人没见过

这张罗斯,得有百分之八十的人没见过

左右为篮
2026-04-19 11:37:34
瞧这两人都是一身正气,为国争光的两位运动员,你知道他们名字吗

瞧这两人都是一身正气,为国争光的两位运动员,你知道他们名字吗

林子说事
2026-05-03 16:57:11
随着艾伦16-17出局,斯诺克世锦赛决赛对阵出炉:吴宜泽PK世界第5

随着艾伦16-17出局,斯诺克世锦赛决赛对阵出炉:吴宜泽PK世界第5

侧身凌空斩
2026-05-03 06:29:18
除了Windows自成一派 全球多数操作系统为何都源自Unix

除了Windows自成一派 全球多数操作系统为何都源自Unix

呼呼历史论
2026-05-03 08:28:21
突然高烧39.7℃!上海七旬阿姨左手像充了气一样肿胀、剧痛!医生:72小时未干预死亡率接近100%

突然高烧39.7℃!上海七旬阿姨左手像充了气一样肿胀、剧痛!医生:72小时未干预死亡率接近100%

新民晚报
2026-05-02 18:26:43
日本可能与中国开战?日专家:与中国发生冲突,最长只能坚持一周

日本可能与中国开战?日专家:与中国发生冲突,最长只能坚持一周

梦史
2026-05-03 18:12:43
距离很近,芥蒂很深?中国和越南为何注定不可能情同手足?

距离很近,芥蒂很深?中国和越南为何注定不可能情同手足?

静夜史君
2026-04-23 23:49:01
为何俄罗斯不担心芯片、光刻机断供?除了中国,其他国家都不担心

为何俄罗斯不担心芯片、光刻机断供?除了中国,其他国家都不担心

南风不及你温柔
2026-05-01 10:21:03
太离谱!华西医院五一放假引争议,被骂想休息别当医生,网友吵翻

太离谱!华西医院五一放假引争议,被骂想休息别当医生,网友吵翻

谭谈社会
2026-05-02 14:27:21
广东老汉囚禁50名女子于鱼塘,6年后才被发现,结局如何

广东老汉囚禁50名女子于鱼塘,6年后才被发现,结局如何

莫地方
2026-04-28 01:40:03
重庆“红顶律师”彭静被带走调查

重庆“红顶律师”彭静被带走调查

新浪财经
2026-05-03 08:45:14
破釜沉舟!国乒男队是否启动断代计划?温瑞博火速上位第三人

破釜沉舟!国乒男队是否启动断代计划?温瑞博火速上位第三人

骑马寺的少年
2026-05-03 19:12:13
国民党通告两岸,台湾最大靠山已浮现,大陆回敬一句话

国民党通告两岸,台湾最大靠山已浮现,大陆回敬一句话

花颜蕴韵
2026-05-02 12:55:40
王楚然肉丝大长腿太撩人,一眼沦陷挪不开眼!

王楚然肉丝大长腿太撩人,一眼沦陷挪不开眼!

TVB的四小花
2026-05-03 16:50:02
你最接近生理极限的一次经历是什么?网友分享让人目瞪口呆!

你最接近生理极限的一次经历是什么?网友分享让人目瞪口呆!

夜深爱杂谈
2026-04-09 19:39:13
2026-05-03 22:56:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12905文章数 142639关注度
往期回顾 全部

科技要闻

库克罕见"拒答"!苹果正被AI供应链卡脖子

头条要闻

美国空军C-17运输机降落北京 中美开启一连串密集互动

头条要闻

美国空军C-17运输机降落北京 中美开启一连串密集互动

体育要闻

裁判准备下班,结果吴宜泽进了决赛

娱乐要闻

黄晓明五一带娃去游乐场 父子幸福同框

财经要闻

后巴菲特时代,首场股东会透露了啥

汽车要闻

同比大涨190% 方程豹4月销量29138台

态度原创

房产
家居
亲子
手机
军事航空

房产要闻

五一楼市彻底明牌!塔尖人群都在重仓凯旋新世界

家居要闻

灵动实用 生活艺术场

亲子要闻

曝光毒绘本:萨琪想要个小宝宝,明显教唆儿童学坏,家长朋友避坑

手机要闻

小米MIX5曝光!磁吸镜头加持

军事要闻

伊朗公布伊方最新谈判方案

无障碍浏览 进入关怀版