中英双语、29项第一：360 FG-CLIP2登顶全球最强图文跨模态模型|fg|新模型

分享至

机器之心原创

编辑：吴昕、冷猫

这年头，AI 创造的视觉世界真是炫酷至极。但真要跟细节较真儿，这些大模型的「眼力见儿」可就让人难绷了。

比如，我让它画「一只穿红外套的猫，站在一辆蓝色跑车左边，蓝色跑车后面是一辆白色 SUV。」

抽卡两次，全翻车。模型似乎还没整明白，「后面」到底是个什么空间关系。

换个路子去搜图：「一辆红色的特斯拉，引擎盖上很多鸟粪」。两排图翻下来，真正对得上的只有一张。

无论是淘一件女明星带火的「蓝色中式茧形设计棉服」，还是「大话西游里的周星驰，手拿紧箍咒」，结果嘛，都不让人省心。

好消息是，这毛病终于要被整治了。

就在我还在吐槽它「看个大概、看不清细节」的时候，360 那边又放了个大招FG-CLIP 2

它就像是给 AI 装了一台显微镜，看图精确到像素级。毛发、斑点、色彩、表情、位置，全都看得清。

在八大类任务、29 项测试中，FG-CLIP 2 全面超越 Google 与 Meta，一跃成为目前最强的图文跨模态 VLM 模型

而且，中英文都玩得 6，真正的：全球最强，又最懂我们。更让人拍手称快的是，360 已经将它开源了！（搓搓小手）

Github:
https://github.com/360CVGroup/FG-CLIP
论文:
https://arxiv.org/abs/2510.10921
项目主页：
https://360cvgroup.github.io/FG-CLIP/

「明察秋毫」，拿了 29 项第一

我们来看下面这张图。你脑海里蹦出的第一个词是什么？

大概率是「猫在看屏幕」，或者更具体点「一只猫看着一只屏幕里的猫」。

很好，你一下敏锐捕捉到了画面中最核心的信息，也就是一只猫在屏幕里。

FG-CLIP 2 猫咪图像标签匹配结果示意。「一只狸花猫和屏幕中的英短相互对视」的结果置信度 88%。

但对于传统 CLIP 模型来说，从一张仅有二维平面信息的图像中识别屏幕内的信息，恐怕已经超出了理解能力的上限 ——

它们只能认出猫和基本动作，却完全搞不清它们的细节，尤其是屏幕里的那只。

而 FG-CLIP 2 不仅能准确理解空间关系，还通过毛发纹理的细节特征，精准区分出猫的品种：一只是狸花猫，另一只是屏幕里的英短猫。

这样识微入毫能力，可不是凭空炼成的。

其实早在 2021 年，OpenAI 靠一篇 48 页的论文打造出多模态领域的开山之作 CLIP——

它第一次让机器学会了「图文配对」，在同一个语义空间里理解世界，从此打开了视觉智能的大门。

此后，Google 推出 SigLIP，Meta 推出 MetaCLIP，一度撑起图文理解模型的「天花板」。

但说实话，即便再强，这些传统 CLIP 模型依然有一个致命短板 —— 它们都很近视：

看不清细节，毛发、纹理无法分辨；
搞不清方位，上下左右容易混淆；
分不清语义，相似的文字经常错配；
中文，细粒度理解几乎处于失明状态。

因为近视，CLIP 系列模型在搜索、推荐、文生图等任务里常常力不从心。

今年 4 月，360 推出了第一代 FG-CLIP，给模型装上了「近视镜」，初步解决了看不清细节的毛病。而这次的 FG-CLIP 2，相当于直接换上了「显微镜」—— 清晰度和理解力暴增。

再看看这张图。户外环境复杂、主体很多、还有高度迷惑性的动作。连人看了都要愣一下，这是干嘛呢？

MetaCLIP 2 非要说是「室内」， SigLIP 2 更离谱，说这是手拉手跳舞，只有 FG-CLIP 2 回答最接近图片内容，「一个人形机器人在户外带领一群老年人做伸展操」。

结果，连 MetaCLIP 2、SigLIP 2 都被整哑火 ——MetaCLIP 2 认成了「室内」，SigLIP 2 更离谱，说是人和机器人「手拉手跳舞」，连地点也没整明白。

只有 FG-CLIP 2 的回答与内容最为接近：一个人形机器人在户外带领一群老年人做伸展操。

这些能力的强大，不是自嗨，而是有数据支撑的。在全球 29 个多模态 Benchmark 测试中，FG-CLIP 2 几乎实现「满环」成绩 ——29 项第一

不论是图文匹配、零样本分类还是跨模态检索，它都稳定、全面、碾压。

「多边形」战士。FG-CLIP 2 不只是「擅长某些场景」，而是在全维度能力上达到 SOTA 水平，真正实现了全方位突破。

在英文任务上，FG-CLIP 2直接拿下了81.10 的平均分，比 Meta CLIP 2 的 72.71、Google SigLIP 2 的 71.87、OpenAI CLIP 的 64.10 都高出一大截。

在中文任务上，它依旧是那个最懂中文语义的模型。不仅超越 Meta 的多语言模型，还稳压阿里的 Chinese-CLIP，证明自己能真正做到中英双通、语义统一。

在英文语言任务上，FG-CLIP 2 以 81.10 分的平均成绩取得了断崖式领先。与之相比，Meta CLIP 2 取得了 72.71 分，Google SigLip 2 取得了 71.87 分，而 OpenAI CLIP 仅取得 64.10 分。

它在平均成绩上超越了支持多国语言的 Meta CLIP 2，并领先阿里达摩院的 Chinese-CLIP 等专注中文优化的模型，证明了其双语一致性与跨语种泛化能力。

数据、数据、还是数据

实现「像素级理解」的核心，是高质量的数据，是比硅谷更具优势，更懂语义的图文样本。

熟悉跨模态模型的人都知道，模型的「理解力」不是灵光一现，而是从海量图文对中，一点点学习出来的。

360 正是从这里入手，花了大力气打造了属于自己的「数据炼金炉」——FineHARD 数据集，也由此开辟了细粒度大规模数据的新纪元。

这套数据集，不仅规模足够大，质量也卷到了新高度。FineHARD 的语义一致性、标注精度、局部划分，突破性的填补了同类 CLIP 模型的数据空白。

为了让模型在中文世界「游刃有余」，360 选择了自建数据，仅中文部分就包含高达5 亿对图像与文本

更妙的是，他们还为中文评测补上了长期缺席的一环 —— 自建了 LIT-CN、DCI-CN、DOCCI-CN 等长描述检索集，以及 BoxClass-CN 区域分类集，首次实现了对跨模态模型在中文语言环境下的多维度、双语细粒度能力的全面评估。

在训练过程中，FG-CLIP 2 充分融合了海量的中英文高质量数据，学习两种原生语境，让模型既能「读懂世界」，也能「看懂中国」。

除此以外，360 在数据结构上动了不少巧思，不只是「多」，而是要「精」。

传统 CLIP 的文本描述大多很短，像「这是一只猫」—— 告诉模型「有猫」，但没告诉它「猫在干嘛」。FG-CLIP 2 的数据更加完整，每张图片都配了两段描述：

一条短文本，帮模型迅速把握全局；另一条平均 150 个词的长文本，描绘背景、属性、动作与空间关系等细节。

于是，模型不再只是认识「猫」，而是能理解「那只趴在沙发上、眯着眼的小橘猫」，在数据层面实现了超高的语义密度。

更进一步，团队还引入了开放世界目标检测（OVD）机制，把每张图片都分解成多个目标区域，并为每个区域生成精准的描述。

最终，整个 FineHARD 数据集最终包含4000 万个目标框及其对应的细粒度描述，模型由此学会了在像素级层面「看世界」。

数据集中包含的长文本、短文本、区域描述示意

当然，要让模型真正有「辨别力」，光知道什么是对的还不够 —— 还得知道什么是错的。

于是，360 又加了一道「狠料」：1000 万组细粒度难负样本

这些样本乍看几乎一模一样，只在细节处藏着陷阱：项圈的颜色、服装的材质、动作的微妙变化。模型若不够尖锐，就会立刻被迷惑。就像之前展示的图像中「伸展操」和「跳舞」的微小区别一样，足以让一般的模型看走眼。

正是这些干扰项，逼着模型不断打磨语义判断力，学会在文本图像的统一空间中远离错误匹配。在复杂场景和相似描述下，也能精准锁定。

细粒度难负样本数据示意

火中淬炼，修得「火眼金睛」

数据集的进化只是序章。要练就像素级的「火眼金睛」，训练方法也得升级。

360 在多模态领域早已是久经沙场的老将，曾发布过开放世界目标检测的 LMM-Det，多模态大模型 360VL 等高质量代表作。

这次，他们把多年积累的经验融会贯通，凝成让模型脱胎换骨的「修炼秘籍」——两阶段训练策略 + 五维协同优化体系，让模型经历一次彻底的蜕变。

修炼的第一步，是「筑基」。模型要先对世界有「全局感知」，才能在此基础上识别细节。

在这一阶段，FG-CLIP 2 采用与 CLIP 类似的整体语义配对方式，先让模型学会理解图像的大致含义。

但不同的是，FG-CLIP 2 没有停留在 CLIP 的「入门阶段」，而是充分利用训练数据的优势，融入更丰富的语义细节，为模型打下了坚实的「世界观地基」，为后来的像素级学习铺平了路。

CLIP 系列模型对齐训练示意图

「筑基」完毕，便是「炼体」。这一阶段，模型不再停留于整体配对，而是开始聚焦局部，精修细节。

FG-CLIP 2 抛弃了传统的整体对齐策略，转而采用全新的训练策略：图像局部信息与文本局部信息对齐

于是，当它看到「猫咪对视」时，不仅知道猫咪品种，还能准确判断毛发细节、位置关系、甚至是屏幕里的虚拟空间。

模型的视觉能力，也从「识物」进化到「识微」，从模糊的大视野变成了像素级显微镜。

FG-CLIP 2 的两阶段训练

而让 FG-CLIP 2 最终成型的，是五维协同的优化体系。

传统模型往往只对齐图像和文本的整体特征，而 FG-CLIP 2 则在训练目标函数上，同时在五个维度发力 —— 全局对齐、细粒度视觉、细粒度文本、跨模态排序、文本对比学习。

当五条「经脉」同时被打通，模型在对齐精度、语义分辨率、抗干扰性上就有了全面觉醒。

除了训练策略革新，FG-CLIP 2 在视觉处理上也动了巧心思。

他们独创了数据自适应分辨率策略：能根据每批图像的最大尺寸自动选择最佳分辨率，既避免了随机缩放带来的变形，又提高了效率。

看似小改动，却带来了大提升。

看得清，更要用得 6：从基石到行业新支点

如果说 FG-CLIP 2 的诞生，让 AI 第一次拥有了像素级的火眼金睛。那么，它更深远的意义，不只是「看得清」，而是真正被用起来。

如今，FG-CLIP 2 已在 360 的多项业务中落地。如广告配图、IoT 摄像机智能检索、信息流图像搜索、云盘图片识别，成为这些业务场景的智能底座。

更重要的是，FG-CLIP 2 已以「API + MCP」的形式全面开放，面向开发者与企业用户，希望这份跨模态理解力，能成为千行百业智能化升级的底层引擎。

在图文检索中，FG-CLIP 2 能真正做到「以文搜图」。输入「穿红裙、手拿咖啡的女性」，它就能精准锁定对应图像。这一能力在电商、安防、媒体内容管理中极具价值。相比传统 CLIP 只能「抓大意」，FG-CLIP 2 能捕捉细节、召回更准、结果更稳。

在 AIGC 内容生成中，它则是生成模型的「细节监督官」，确保画面在品牌元素、颜色、布局等关键维度与提示语一致，让 AI 生成的内容更精准、可靠。

在内容审核和安防监控领域，它能理解图像局部语义，识别人物、符号或敏感元素，实现「用语言搜视频」的自然检索，大幅提升效率与准确性。

而在具身智能领域，机器人能 get 物体状态与空间关系，依循命令「拿起餐桌上的红色水杯」，「把玩具放进绿色收纳箱」。

厚积成峰，360「棋局」初成

未来的智能竞争，不在于谁的应用更炫，而在于谁能构建出统一、强大的自主 AI 核心能力。作为一家以安全著称，拥有丰富产品生态的科技企业，360 早已布好棋局，掌控关键落子。

360 人工智能研究院在多模态概念尚未普及之前，就开始投入视觉 — 语言理解方向的研究。他们以「让 AI 看清世界、理解世界、再创造世界」为目标，构建了由三个阶段组成的多模态技术体系：视觉 AIGC、多模态大模型和开放世界目标检测（OVD）。

其中，CLIP 系列模型是整个体系的基石，负责实现视觉与语言的语义对齐。LMM-Det 和 360VL 聚焦于视觉感知与高层语义理解。而 SEEChat、PlanGen 和 HiCo 则将底层能力封装为多模态交互、生成与知识增强功能，形成了可复用、可扩展的多模态技术链条。

与此同时，研究团队也持续保持较高的科研产出。过去三年中，多篇论文被 ICLR、NeurIPS、ICML、ICCV 等国际顶级学术会议接收，逐步形成了从基础研究到应用落地的完整技术闭环。

可以说，FG-CLIP 2 已不仅是一项模型成果，更代表着中国团队在多模态基础研究上的一次系统性探索。未来，随着视觉与语言理解技术的融合深化，这样的底层能力或将成为通用智能的重要支点。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手机 / 数码

房产 / 家居

中英双语、29项第一：360 FG-CLIP2登顶全球最强图文跨模态模型

网易科技"未来大奖2026上半年AI榜单"揭晓

媒体：驱逐所有以色列人 马来西亚对以强硬几乎零成本

媒体：驱逐所有以色列人 马来西亚对以强硬几乎零成本

65岁肌肉男，世界杯最年长冠军主帅

谢霆锋发文确认父亲谢贤去世 享年89岁

AI开始挤泡沫

综合续航超1600km 2027款星途ES上市置换价16.99万起

态度原创

负债12亿超大零售商要倒闭！新主机迟迟不来影响太大

当别人在莫兰迪色里内卷，他反手把纯色玩到极致：这才叫真·高级

2026暑期旅行新灵感：跟着影视去旅行

父母给孩子的压力太大，最终导致孩子得了抽眼症！

两名美军士兵死亡 美伊冲突升级

媒体：驱逐所有以色列人马来西亚对以强硬几乎零成本

媒体：驱逐所有以色列人马来西亚对以强硬几乎零成本

谢霆锋发文确认父亲谢贤去世享年89岁

两名美军士兵死亡美伊冲突升级