Meta揭大模型“看图”之谜：没见图也能行，文字训练藏关键|视觉|推理|新模型|meta

分享至

你有没有想过：一个从没 “见过” 任何图片的AI，只靠读文字，居然能看懂图像？这就像一个人没摸过画笔、没看过画作，单靠读美术理论书，就能画出像样的画——听着离谱，却是近年来 AI 领域最让人困惑的现象之一。

直到2025年1月，Meta超级智能实验室联合牛津大学的韩俊林、汤盛邦、范大卫等团队，在论文（编号 arXiv:2509.26625v1）里揭开了这个谜题。他们花了50万 GPU小时，训练了100多个不同模型，终于搞懂：原来文字训练给大模型埋下了 “视觉种子”，只要稍作引导，就能长出 “看图能力”。

一、AI的“看图本事”，其实是两套“工具”在分工

很多人以为AI“看懂图” 是一种本事，可研究团队拆解开发现：这其实是两套独立的“工具”在干活——就像一台机器里装了两个引擎，一个管 “看见”，一个管 “想通”。

为了验证这个想法，他们做了个大实验：训练105个不同模型，让它们做四种视觉任务——认东西（通用视觉理解）、读文字（文字识别）、用知识（知识密集型任务）、解难题（视觉推理）。结果很有意思：

认东西和读文字的能力高度相关，它们靠的是 “感知工具”——就像AI的 “眼睛”，负责抓图像里的基本信息，比如“这是红色”“那是圆形”“这东西像苹果”。
用知识和解难题的能力也相关，靠的是“推理工具”——相当于AI的“大脑”，负责分析关系，比如“苹果在盘子里，盘子在桌子上”“这个边界框更准，因为它刚好框住了叉子的柄和齿”。

更反常识的是：这两套工具几乎没关系，甚至有时“此强彼弱”。比如一个AI能精准认出图里的每一个小零件，却算不出 “这堆零件能拼成什么”；另一个AI可能认不清细节，却能快速推理出 “图里的人在修自行车”。

他们还做了个 “换眼睛” 实验：给同一个AI配三种不同的“视觉编码器”（相当于三种不同的 “眼睛”），结果发现——不管换哪种“眼睛”，只要AI之前读了很多代码、数学这类“烧脑文字”，解视觉难题的能力就更强。这说明“推理工具”是通用的，能跨着“文字”和“图像”用；但“感知工具”很依赖“眼睛”，换个“眼睛”，认东西的本事可能就变了。

这对开发AI太有用了：想让AI会“看图推理”，就多给它读代码、数学书；想让AI认东西更准，就优化它的 “眼睛”（视觉编码器），多给它看标注清晰的图像数据。

二、学代码、算数学，居然能帮AI“看懂图”？

研究里最神奇的发现是：AI学代码、数学时练出的 “推理本事”，居然能直接用到看图像上——就像人学会骑自行车后，再学骑摩托会特别快，因为核心的 “平衡感” 是通用的。

为了证明这一点，团队做了个实验：让AI回答视觉问题时，不仅给答案，还要 “说清楚怎么想的”，再用另一个AI评估它的“思考质量”（逻辑严不严密、想得深不深）。

结果吓了一跳：当AI学代码的比例从0%提到100%，它的推理逻辑严密性几乎翻了一倍（从4.52%到9.52%），思考深度更是翻了6倍多（从8.31个文本单位到53.25个）。

举个具体例子：让AI判断 “哪个边界框更准地圈住了叉子”。没学过代码的AI只会说 “选第二个”，说不出理由；而学过大量代码的AI会详细解释：“边界框要完整覆盖物体，第一个框漏了叉子的齿，第二个框刚好框住柄和齿，所以第二个更准”—— 就像程序员写代码时会详细写注释，逻辑清清楚楚。

为什么代码有这么大魔力？因为代码本身是“严格的逻辑语言”：写代码时必须一步一步说清楚“先做什么、再做什么”，不能有半点模糊。AI学代码的过程，其实是在练 “拆解问题、梳理逻辑” 的本事——这种本事不分“处理文字”还是“处理图像”，遇到视觉推理题，自然能用上。

数学训练也有类似效果，只是稍弱一点。这说明：只要是需要 “严密思考” 的文字，都能帮AI练出跨模态的 “推理力”。

三、喂AI“吃饭”有黄金配方：60%“烧脑文”+15%“看图文”

搞懂了“工具”和“能力来源”，团队接下来要找：怎么搭配训练数据，才能让 AI 既会“看”又会“想”，还不耽误原本的文字能力？

他们像调“营养配方”一样，试了24种数据组合：推理型文本（代码、数学、学术论文）比例从50%到85%，视觉描述文本（比如 “红色的苹果放在白色盘子里”）比例从5%到30%，每种配方都训练一个30亿参数的模型。

最终找到一个 “黄金比例”：约60%推理型文本+15%视觉描述文本。更关键的是，这个配方证明：想让AI有视觉能力，不用堆大量视觉文本——重点是先打好 “推理基础”，再用少量视觉文本 “激活” 能力就行。

为了贴近实际开发，他们还选了6种常见数据源（网络爬虫文本、百科、学术论文、文学作品、数学、代码），设计了从 “语言友好” 到 “视觉友好” 的渐变配方。

最开始的 “语言友好配方” 里，网络文本占50%、文学作品20%、代码20%，虽然文字任务表现好（困惑度13.46，准确率53%），但视觉能力弱。后来他们逐步增加推理文本比例，减少文学、网络文本，直到 “mix6 配方” 达到平衡：

mix6配方：40%网络文本、8%百科、5%学术论文、2%文学作品、10%数学、35%代码
效果：视觉准确率冲到33.3%，而文字能力几乎没下降 —— 相当于 AI “文武双全” 了，还没偏科。

四、想让 AI “认东西准”，别只喂“看图文”，要“杂着喂”

和 “推理能力” 来源清晰不同，AI的 “感知能力”（认东西、辨细节）培养起来更讲究 —— 不是某类文本 “吃得越多越好”，而是 “吃得越杂越好”。

团队专门做了个 “物体识别测试”（MLE-Bench）：用1861张图，按物体占画面的比例分成 “小物体”（0~30%，比如图里的小纽扣）、“中物体”（30~60%，比如一本书）、“大物体”（60~100%，比如占满画面的沙发），让16个“单吃一种数据源” 的AI来认。

结果发现：用“网络爬虫文本”训练的AI表现最好，尤其是认小物体和中物体时 ——因为网络文本太杂了，从 “奶茶杯上的吸管是斜的” 到 “显微镜下的细胞呈圆形”，从日常琐事到专业知识，啥都有，就像 “吃杂粮” 一样，营养全面，AI自然能认更多样的东西。

更意外的是：仅用25%视觉描述文本的AI，在某些复杂视觉任务上，居然比用100%视觉文本的AI表现还好。这说明：太多“看图描述” 反而会让AI“钻牛角尖”——比如只记住“苹果是红色的”，却忘了“还有绿色苹果”，反而学不会抽象的视觉概念。

团队还发现：如果后期训练时删掉 “感知导向的指令数据”（比如“教AI认颜色、形状的文本”），AI认东西、读文字的能力会掉5~10%；但删掉“推理导向的指令数据”，影响的主要是解难题——再次证明，“感知” 和 “推理” 是两套独立的本事。

五、工业级测试：1万亿文字“喂”出的AI，真的更能“看图”

实验室里的结论靠谱吗？团队搞了次 “工业级验证”：用1万亿个文字标记，训练两个70亿参数的大模型——一个用传统 “语言友好配方”，一个用“mix6平衡配方”，128个A100 GPU连跑32天（相当于中型 AI 公司几个月的计算成本）。

结果超出预期：

语言能力：平衡配方的AI“困惑度”（越低越好）是7.49，比传统配方的8.72还低；文字准确率从64.7%升到65.5%——之前担心 “加推理文本会耽误文字能力”，居然是多余的，反而因为推理能力强了，整体理解文字的本事也提了。
视觉能力：平衡配方的AI平均得分38.64%，比传统配方的37.32%高1.32个百分点，而且是全面提升——不管是认东西、读文字，还是用知识、解难题，都更好。尤其是“知识密集型视觉任务”（比如 “图里的古建筑是哪种风格，为什么”），提升最明显，正好印证了“推理能力跨模态”的结论。

之后他们还加了完整的多模态训练（用250万张图 + 文本配对、700万条多模态指令），发现之前文字训练埋下的 “视觉种子”，真的能顺利长成 “看图能力”——这说明这些发现不是实验室里的“小把戏”，而是能落地的实用方法。

六、意外风险：AI会“瞎编”答案？警惕“盲训练”的双刃剑

研究中还发现一个有趣又危险的现象：“盲视觉指令调优”——先让AI只学“视觉任务的文字指令”（如“怎么回答图里有什么”），不看任何图，再学图+文本配对。

这么做确实能提性能：传统配方的 AI 视觉准确率从37.32%升到38.20%，平衡配方的从38.64%升到39.56%。但背后藏着坑：AI之所以能 “盲答”，靠的是 “猜”——用问题里的线索+之前读的知识编答案，比如问 “图里的猫是什么颜色”，AI 没看图，却因为读过上万次 “猫常见颜色是橘色、白色”，就编“橘色”。

团队测试了GPT-5、Gemini 2.5 Pro、Claude Opus 4.1等主流AI，发现这种“幻觉” 普遍存在：哪怕故意不给图，AI也会自信地“编答案”，仿佛真的“看见了”。这提醒我们：评估AI的“看图能力”时，不能只看答案对不对，还要看它是不是真的 “看懂了”，不然很可能被“聪明的猜测”骗了。

当然，这种方法也不是没用——把“学指令”和“学看图”分开，像 “先学考试规则，再做题”，效率更高。关键是要做好“防幻觉”：比如让AI在没图时明确说 “没看到图像，无法判断”，而不是硬编。

七、背后的大道理：AI能从“文字影子”学出“现实规律”

这些发现，其实印证了一个重要的理论——“柏拉图表征假说”。简单说：文本和图像，就像现实世界的 “影子”（比如 “苹果是红的、圆的” 是文字影子，苹果的照片是图像影子）；足够强的 AI，能从单一 “影子” 里，学出背后的 “现实规律”（比如苹果的本质特征）。

团队做了个实验：用维基百科的图+文本对，提取语言模型和三种视觉模型（ViT-Large、DINOv2-Giant、CLIP-Huge）的“特征”，看它们有多像。结果发现：读了更多代码、数学的语言模型，和视觉模型的 “特征相似度” 更高 —— 说明 AI 真的从文字里，学到了和图像相通的 “底层规律”。

这背后的哲学意味很有意思：智能可能不依赖“看什么、听什么”，而是看能不能抓住 “现实的本质”。不管是读文字还是看图像，AI最终都是在理解同一个世界——这也为未来的通用AI指明了方向：不用死磕 “多模态数据堆量”，而是要培养AI抓底层规律的能力。

八、未来：从“碰运气”到“精准培养”，AI视觉能力有了说明书

这项研究最大的价值，是把AI的“视觉天赋”从“偶然发现” 变成了“刻意培养”。以前，开发者可能偶尔发现 “这个模型居然能看图”，却不知道为什么；现在，有了明确的 “说明书”：

想练 “推理”：多喂代码、数学、学术论文，占比约60%；
想练 “感知”：用多样化文本（比如网络爬虫内容），加少量视觉描述（约 15%），优化视觉编码器；
想平衡：试试 mix6 配方，兼顾文字和视觉能力。

当然，研究也有局限：目前只测了 “常见的多模态架构”，对其他架构（比如端到端训练）是否适用还不清楚；也只研究了静态图片，没涉及视频这类动态内容；另外，如果文字数据里有偏见（比如 “认为某种肤色的人更可能做某件事”），这些偏见也可能传到视觉能力里，安全性和公平性还需要进一步解决。

但无论如何，这项研究给 AI 领域打开了一扇新门：原来文字和图像之间，藏着这么深的关联；原来不用 “题海战术” 堆数据，精准调配 “训练食材”，就能让 AI 更聪明。或许未来，我们能看到更多 “会读、会想、会看” 的通用 AI，在医疗、教育、设计等领域发挥更大作用 —— 而这一切的起点，只是一个 “没见过图却能看图” 的奇怪现象。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.