网易首页 > 网易号 > 正文 申请入驻

Meta揭大模型“看图”之谜:没见图也能行,文字训练藏关键

0
分享至

你有没有想过:一个从没 “见过” 任何图片的AI,只靠读文字,居然能看懂图像?这就像一个人没摸过画笔、没看过画作,单靠读美术理论书,就能画出像样的画——听着离谱,却是近年来 AI 领域最让人困惑的现象之一。

直到2025年1月,Meta超级智能实验室联合牛津大学的韩俊林、汤盛邦、范大卫等团队,在论文(编号 arXiv:2509.26625v1)里揭开了这个谜题。他们花了50万 GPU小时,训练了100多个不同模型,终于搞懂:原来文字训练给大模型埋下了 “视觉种子”,只要稍作引导,就能长出 “看图能力”。

一、AI的“看图本事”,其实是两套“工具”在分工

很多人以为AI“看懂图” 是一种本事,可研究团队拆解开发现:这其实是两套独立的“工具”在干活——就像一台机器里装了两个引擎,一个管 “看见”,一个管 “想通”。

为了验证这个想法,他们做了个大实验:训练105个不同模型,让它们做四种视觉任务——认东西(通用视觉理解)、读文字(文字识别)、用知识(知识密集型任务)、解难题(视觉推理)。结果很有意思:

  • 认东西和读文字的能力高度相关,它们靠的是 “感知工具”——就像AI的 “眼睛”,负责抓图像里的基本信息,比如“这是红色”“那是圆形”“这东西像苹果”。
  • 用知识和解难题的能力也相关,靠的是“推理工具”——相当于AI的“大脑”,负责分析关系,比如“苹果在盘子里,盘子在桌子上”“这个边界框更准,因为它刚好框住了叉子的柄和齿”。

更反常识的是:这两套工具几乎没关系,甚至有时“此强彼弱”。比如一个AI能精准认出图里的每一个小零件,却算不出 “这堆零件能拼成什么”;另一个AI可能认不清细节,却能快速推理出 “图里的人在修自行车”。

他们还做了个 “换眼睛” 实验:给同一个AI配三种不同的“视觉编码器”(相当于三种不同的 “眼睛”),结果发现——不管换哪种“眼睛”,只要AI之前读了很多代码、数学这类“烧脑文字”,解视觉难题的能力就更强。这说明“推理工具”是通用的,能跨着“文字”和“图像”用;但“感知工具”很依赖“眼睛”,换个“眼睛”,认东西的本事可能就变了。

这对开发AI太有用了:想让AI会“看图推理”,就多给它读代码、数学书;想让AI认东西更准,就优化它的 “眼睛”(视觉编码器),多给它看标注清晰的图像数据。



二、学代码、算数学,居然能帮AI“看懂图”?

研究里最神奇的发现是:AI学代码、数学时练出的 “推理本事”,居然能直接用到看图像上——就像人学会骑自行车后,再学骑摩托会特别快,因为核心的 “平衡感” 是通用的。

为了证明这一点,团队做了个实验:让AI回答视觉问题时,不仅给答案,还要 “说清楚怎么想的”,再用另一个AI评估它的“思考质量”(逻辑严不严密、想得深不深)。

结果吓了一跳:当AI学代码的比例从0%提到100%,它的推理逻辑严密性几乎翻了一倍(从4.52%到9.52%),思考深度更是翻了6倍多(从8.31个文本单位到53.25个)。

举个具体例子:让AI判断 “哪个边界框更准地圈住了叉子”。没学过代码的AI只会说 “选第二个”,说不出理由;而学过大量代码的AI会详细解释:“边界框要完整覆盖物体,第一个框漏了叉子的齿,第二个框刚好框住柄和齿,所以第二个更准”—— 就像程序员写代码时会详细写注释,逻辑清清楚楚。

为什么代码有这么大魔力?因为代码本身是“严格的逻辑语言”:写代码时必须一步一步说清楚“先做什么、再做什么”,不能有半点模糊。AI学代码的过程,其实是在练 “拆解问题、梳理逻辑” 的本事——这种本事不分“处理文字”还是“处理图像”,遇到视觉推理题,自然能用上。

数学训练也有类似效果,只是稍弱一点。这说明:只要是需要 “严密思考” 的文字,都能帮AI练出跨模态的 “推理力”。



三、喂AI“吃饭”有黄金配方:60%“烧脑文”+15%“看图文”

搞懂了“工具”和“能力来源”,团队接下来要找:怎么搭配训练数据,才能让 AI 既会“看”又会“想”,还不耽误原本的文字能力?

他们像调“营养配方”一样,试了24种数据组合:推理型文本(代码、数学、学术论文)比例从50%到85%,视觉描述文本(比如 “红色的苹果放在白色盘子里”)比例从5%到30%,每种配方都训练一个30亿参数的模型。

最终找到一个 “黄金比例”:约60%推理型文本+15%视觉描述文本。更关键的是,这个配方证明:想让AI有视觉能力,不用堆大量视觉文本——重点是先打好 “推理基础”,再用少量视觉文本 “激活” 能力就行。

为了贴近实际开发,他们还选了6种常见数据源(网络爬虫文本、百科、学术论文、文学作品、数学、代码),设计了从 “语言友好” 到 “视觉友好” 的渐变配方。

最开始的 “语言友好配方” 里,网络文本占50%、文学作品20%、代码20%,虽然文字任务表现好(困惑度13.46,准确率53%),但视觉能力弱。后来他们逐步增加推理文本比例,减少文学、网络文本,直到 “mix6 配方” 达到平衡:

  • mix6配方:40%网络文本、8%百科、5%学术论文、2%文学作品、10%数学、35%代码
  • 效果:视觉准确率冲到33.3%,而文字能力几乎没下降 —— 相当于 AI “文武双全” 了,还没偏科。



四、想让 AI “认东西准”,别只喂“看图文”,要“杂着喂”

和 “推理能力” 来源清晰不同,AI的 “感知能力”(认东西、辨细节)培养起来更讲究 —— 不是某类文本 “吃得越多越好”,而是 “吃得越杂越好”。

团队专门做了个 “物体识别测试”(MLE-Bench):用1861张图,按物体占画面的比例分成 “小物体”(0~30%,比如图里的小纽扣)、“中物体”(30~60%,比如一本书)、“大物体”(60~100%,比如占满画面的沙发),让16个“单吃一种数据源” 的AI来认。

结果发现:用“网络爬虫文本”训练的AI表现最好,尤其是认小物体和中物体时 ——因为网络文本太杂了,从 “奶茶杯上的吸管是斜的” 到 “显微镜下的细胞呈圆形”,从日常琐事到专业知识,啥都有,就像 “吃杂粮” 一样,营养全面,AI自然能认更多样的东西。

更意外的是:仅用25%视觉描述文本的AI,在某些复杂视觉任务上,居然比用100%视觉文本的AI表现还好。这说明:太多“看图描述” 反而会让AI“钻牛角尖”——比如只记住“苹果是红色的”,却忘了“还有绿色苹果”,反而学不会抽象的视觉概念。

团队还发现:如果后期训练时删掉 “感知导向的指令数据”(比如“教AI认颜色、形状的文本”),AI认东西、读文字的能力会掉5~10%;但删掉“推理导向的指令数据”,影响的主要是解难题——再次证明,“感知” 和 “推理” 是两套独立的本事。

五、工业级测试:1万亿文字“喂”出的AI,真的更能“看图”

实验室里的结论靠谱吗?团队搞了次 “工业级验证”:用1万亿个文字标记,训练两个70亿参数的大模型——一个用传统 “语言友好配方”,一个用“mix6平衡配方”,128个A100 GPU连跑32天(相当于中型 AI 公司几个月的计算成本)。

结果超出预期:

  • 语言能力:平衡配方的AI“困惑度”(越低越好)是7.49,比传统配方的8.72还低;文字准确率从64.7%升到65.5%——之前担心 “加推理文本会耽误文字能力”,居然是多余的,反而因为推理能力强了,整体理解文字的本事也提了。
  • 视觉能力:平衡配方的AI平均得分38.64%,比传统配方的37.32%高1.32个百分点,而且是全面提升——不管是认东西、读文字,还是用知识、解难题,都更好。尤其是“知识密集型视觉任务”(比如 “图里的古建筑是哪种风格,为什么”),提升最明显,正好印证了“推理能力跨模态”的结论。

之后他们还加了完整的多模态训练(用250万张图 + 文本配对、700万条多模态指令),发现之前文字训练埋下的 “视觉种子”,真的能顺利长成 “看图能力”——这说明这些发现不是实验室里的“小把戏”,而是能落地的实用方法。

六、意外风险:AI会“瞎编”答案?警惕“盲训练”的双刃剑

研究中还发现一个有趣又危险的现象:“盲视觉指令调优”——先让AI只学“视觉任务的文字指令”(如“怎么回答图里有什么”),不看任何图,再学图+文本配对。

这么做确实能提性能:传统配方的 AI 视觉准确率从37.32%升到38.20%,平衡配方的从38.64%升到39.56%。但背后藏着坑:AI之所以能 “盲答”,靠的是 “猜”——用问题里的线索+之前读的知识编答案,比如问 “图里的猫是什么颜色”,AI 没看图,却因为读过上万次 “猫常见颜色是橘色、白色”,就编“橘色”。

团队测试了GPT-5、Gemini 2.5 Pro、Claude Opus 4.1等主流AI,发现这种“幻觉” 普遍存在:哪怕故意不给图,AI也会自信地“编答案”,仿佛真的“看见了”。这提醒我们:评估AI的“看图能力”时,不能只看答案对不对,还要看它是不是真的 “看懂了”,不然很可能被“聪明的猜测”骗了。

当然,这种方法也不是没用——把“学指令”和“学看图”分开,像 “先学考试规则,再做题”,效率更高。关键是要做好“防幻觉”:比如让AI在没图时明确说 “没看到图像,无法判断”,而不是硬编。

七、背后的大道理:AI能从“文字影子”学出“现实规律”

这些发现,其实印证了一个重要的理论——“柏拉图表征假说”。简单说:文本和图像,就像现实世界的 “影子”(比如 “苹果是红的、圆的” 是文字影子,苹果的照片是图像影子);足够强的 AI,能从单一 “影子” 里,学出背后的 “现实规律”(比如苹果的本质特征)。

团队做了个实验:用维基百科的图+文本对,提取语言模型和三种视觉模型(ViT-Large、DINOv2-Giant、CLIP-Huge)的“特征”,看它们有多像。结果发现:读了更多代码、数学的语言模型,和视觉模型的 “特征相似度” 更高 —— 说明 AI 真的从文字里,学到了和图像相通的 “底层规律”。

这背后的哲学意味很有意思:智能可能不依赖“看什么、听什么”,而是看能不能抓住 “现实的本质”。不管是读文字还是看图像,AI最终都是在理解同一个世界——这也为未来的通用AI指明了方向:不用死磕 “多模态数据堆量”,而是要培养AI抓底层规律的能力。

八、未来:从“碰运气”到“精准培养”,AI视觉能力有了说明书

这项研究最大的价值,是把AI的“视觉天赋”从“偶然发现” 变成了“刻意培养”。以前,开发者可能偶尔发现 “这个模型居然能看图”,却不知道为什么;现在,有了明确的 “说明书”:

  • 想练 “推理”:多喂代码、数学、学术论文,占比约60%;
  • 想练 “感知”:用多样化文本(比如网络爬虫内容),加少量视觉描述(约 15%),优化视觉编码器;
  • 想平衡:试试 mix6 配方,兼顾文字和视觉能力。

当然,研究也有局限:目前只测了 “常见的多模态架构”,对其他架构(比如端到端训练)是否适用还不清楚;也只研究了静态图片,没涉及视频这类动态内容;另外,如果文字数据里有偏见(比如 “认为某种肤色的人更可能做某件事”),这些偏见也可能传到视觉能力里,安全性和公平性还需要进一步解决。

但无论如何,这项研究给 AI 领域打开了一扇新门:原来文字和图像之间,藏着这么深的关联;原来不用 “题海战术” 堆数据,精准调配 “训练食材”,就能让 AI 更聪明。或许未来,我们能看到更多 “会读、会想、会看” 的通用 AI,在医疗、教育、设计等领域发挥更大作用 —— 而这一切的起点,只是一个 “没见过图却能看图” 的奇怪现象。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
刘亦菲与神秘男子“独处6小时”,照片曝光,网友:是他就很合理

刘亦菲与神秘男子“独处6小时”,照片曝光,网友:是他就很合理

十点读书
2026-01-28 12:19:49
浙江一男子花2.7万租女友回家过年,要求对方假装博士,谁料,进门后女孩竟直接给“婆婆”跪下了!

浙江一男子花2.7万租女友回家过年,要求对方假装博士,谁料,进门后女孩竟直接给“婆婆”跪下了!

LULU生活家
2026-01-27 18:52:18
29岁游泳女神吃鸭翅时险些丧命,惊魂未定,提醒大家吃饭时别说话

29岁游泳女神吃鸭翅时险些丧命,惊魂未定,提醒大家吃饭时别说话

米修体育
2026-01-28 13:34:30
美军压境,中央司令已到,全面战争要开打?中方在联合国先发制人

美军压境,中央司令已到,全面战争要开打?中方在联合国先发制人

报君知史
2026-01-28 17:34:53
看了潘虹再看王馥荔,我发现:女人老了,还是穿“深色”更贵气

看了潘虹再看王馥荔,我发现:女人老了,还是穿“深色”更贵气

锋哥与八卦哥
2026-01-26 11:30:27
男子爬山丢失80余克金饰?当事人称若有人归还,愿出当天金牌价值一半作赏金

男子爬山丢失80余克金饰?当事人称若有人归还,愿出当天金牌价值一半作赏金

扬子晚报
2026-01-27 21:25:27
历史级控场者:哈登,把名字刻进了NBA的双榜丰碑!

历史级控场者:哈登,把名字刻进了NBA的双榜丰碑!

体育闲话说
2026-01-28 13:51:52
熔断!印尼股市暴跌8%

熔断!印尼股市暴跌8%

证券时报
2026-01-28 18:03:07
国家终于出手了!不仅是李梓萌被牵连,就连全红婵张文宏也没逃过

国家终于出手了!不仅是李梓萌被牵连,就连全红婵张文宏也没逃过

达西伍红
2025-12-25 20:20:58
曝具俊晔放弃大S遗产,6.5亿留给孩子,两家和解,原因竟是马筱梅

曝具俊晔放弃大S遗产,6.5亿留给孩子,两家和解,原因竟是马筱梅

阿纂看事
2026-01-27 17:21:43
命中率67.3%!高居联盟第一!快船2换1神级交易

命中率67.3%!高居联盟第一!快船2换1神级交易

篮球教学论坛
2026-01-28 16:58:52
中日开战可能性增大,但收场太难,若真动手,中方估计半步都不退

中日开战可能性增大,但收场太难,若真动手,中方估计半步都不退

百态人间
2026-01-03 16:42:15
陪睡陪玩只是冰山一角!万达蒸发800亿后,王思聪再次传出大丑闻

陪睡陪玩只是冰山一角!万达蒸发800亿后,王思聪再次传出大丑闻

民间平哥
2025-12-25 14:54:58
44歲薛凱琪生圖流出真實容貌曝光,越見精緻臉上一部位惹關注

44歲薛凱琪生圖流出真實容貌曝光,越見精緻臉上一部位惹關注

粤睇先生
2026-01-28 10:23:44
金价上涨的第一批受害者出现了。

金价上涨的第一批受害者出现了。

爱吃糖的猫cat
2026-01-25 10:28:59
你们发现了吗?父母有退休金的家庭,基本都是这5种结局!

你们发现了吗?父母有退休金的家庭,基本都是这5种结局!

匹夫来搞笑
2026-01-28 10:23:39
美军惨败急封报告!大陆一锤定音:统一已成定局

美军惨败急封报告!大陆一锤定音:统一已成定局

我是盲流
2026-01-24 20:39:28
上海海港居然一千万报价彭啸,声东击西,卫冕冠军这是在恶心泰山

上海海港居然一千万报价彭啸,声东击西,卫冕冠军这是在恶心泰山

姜大叔侃球
2026-01-28 18:04:13
北汽男篮遭山西主场球迷吐口水,CBA公布罚单:山西队因管理不力被罚2万元;杰曼做出侮辱性手势被罚3万元

北汽男篮遭山西主场球迷吐口水,CBA公布罚单:山西队因管理不力被罚2万元;杰曼做出侮辱性手势被罚3万元

鲁中晨报
2026-01-28 18:11:03
“8大症状说明你已经老了”,你占了几项?我全占了!!

“8大症状说明你已经老了”,你占了几项?我全占了!!

社评
2026-01-02 12:24:58
2026-01-28 19:40:49
DATAVIEW
DATAVIEW
时刻讨论和分析世界、行业、AI等热门话题,只提取高价值信息
32文章数 2关注度
往期回顾 全部

科技要闻

它是神也是毒!Clawdbot改名卷入千万诈骗

头条要闻

知名企业家熊海涛被留置 被指与成都主要领导违纪有关

头条要闻

知名企业家熊海涛被留置 被指与成都主要领导违纪有关

体育要闻

没天赋的CBA第一小前锋,秘诀只有一个字

娱乐要闻

王祖贤入驻某音:一条7秒视频吸粉55万

财经要闻

从万科退休20天后,郁亮疑似失联

汽车要闻

新手必看!冰雪路面不敢开?记住这4点 关键时刻真能保命

态度原创

数码
艺术
房产
健康
旅游

数码要闻

疯了!DDR4暴涨1845%,DDR5涨465%,装机党彻底哭了

艺术要闻

震撼!19世纪油画巨匠的作品美得不可思议!

房产要闻

实景兑现在即!绿城,在海棠湾重新定义终极旅居想象!

耳石症分类型,症状大不同

旅游要闻

2026年,中国入境游最热方式或是“医疗+旅游”?

无障碍浏览 进入关怀版