网易首页 > 网易号 > 正文 申请入驻

中英双语、29项第一:360 FG-CLIP2登顶全球最强图文跨模态模型

0
分享至



机器之心原创

编辑:吴昕、冷猫

这年头,AI 创造的视觉世界真是炫酷至极。但真要跟细节较真儿,这些大模型的「眼力见儿」可就让人难绷了。

比如,我让它画「一只穿红外套的猫,站在一辆蓝色跑车左边,蓝色跑车后面是一辆白色 SUV。」



抽卡两次,全翻车。模型似乎还没整明白,「后面」到底是个什么空间关系。

换个路子去搜图:「一辆红色的特斯拉,引擎盖上很多鸟粪」。两排图翻下来,真正对得上的只有一张。



无论是淘一件女明星带火的「蓝色中式茧形设计棉服」,还是「大话西游里的周星驰,手拿紧箍咒」,结果嘛 ,都不让人省心。



好消息是,这毛病终于要被整治了。

就在我还在吐槽它「看个大概、看不清细节」的时候,360 那边又放了个大招FG-CLIP 2

它就像是给 AI 装了一台显微镜,看图精确到像素级。毛发、斑点、色彩、表情、位置,全都看得清。

在八大类任务、29 项测试中,FG-CLIP 2 全面超越 Google 与 Meta, 一跃成为目前最强的图文跨模态 VLM 模型

而且,中英文都玩得 6,真正的:全球最强,又最懂我们。更让人拍手称快的是,360 已经将它开源了!(搓搓小手)



  • Github:
  • https://github.com/360CVGroup/FG-CLIP
  • 论文:
  • https://arxiv.org/abs/2510.10921
  • 项目主页:
  • https://360cvgroup.github.io/FG-CLIP/

「明察秋毫」,拿了 29 项第一

我们来看下面这张图。你脑海里蹦出的第一个词是什么?

大概率是「猫在看屏幕」,或者更具体点 「一只猫看着一只屏幕里的猫」。

很好,你一下敏锐捕捉到了画面中最核心的信息,也就是一只猫在屏幕里。



FG-CLIP 2 猫咪图像标签匹配结果示意。「一只狸花猫和屏幕中的英短相互对视」的结果置信度 88%。

但对于传统 CLIP 模型来说,从一张仅有二维平面信息的图像中识别屏幕内的信息,恐怕已经超出了理解能力的上限 ——

它们只能认出猫和基本动作,却完全搞不清它们的细节,尤其是屏幕里的那只。

而 FG-CLIP 2 不仅能准确理解空间关系,还通过毛发纹理的细节特征,精准区分出猫的品种:一只是狸花猫,另一只是屏幕里的英短猫。

这样识微入毫能力,可不是凭空炼成的。

其实早在 2021 年,OpenAI 靠一篇 48 页的论文打造出多模态领域的开山之作 CLIP——

它第一次让机器学会了「图文配对」,在同一个语义空间里理解世界,从此打开了视觉智能的大门。

此后,Google 推出 SigLIP,Meta 推出 MetaCLIP,一度撑起图文理解模型的「天花板」。

但说实话,即便再强,这些传统 CLIP 模型依然有一个致命短板 —— 它们都很近视:

  • 看不清细节,毛发、纹理无法分辨;
  • 搞不清方位,上下左右容易混淆;
  • 分不清语义,相似的文字经常错配;
  • 中文,细粒度理解几乎处于失明状态。

因为近视,CLIP 系列模型在搜索、推荐、文生图等任务里常常力不从心。

今年 4 月,360 推出了第一代 FG-CLIP,给模型装上了「近视镜」,初步解决了看不清细节的毛病。而这次的 FG-CLIP 2,相当于直接换上了「显微镜」—— 清晰度和理解力暴增。

再看看这张图。户外环境复杂、主体很多、还有高度迷惑性的动作。连人看了都要愣一下,这是干嘛呢?



MetaCLIP 2 非要说是「室内」, SigLIP 2 更离谱,说这是手拉手跳舞,只有 FG-CLIP 2 回答最接近图片内容,「一个人形机器人在户外带领一群老年人做伸展操」。

结果,连 MetaCLIP 2、SigLIP 2 都被整哑火 ——MetaCLIP 2 认成了「室内」,SigLIP 2 更离谱,说是人和机器人「手拉手跳舞」,连地点也没整明白。

只有 FG-CLIP 2 的回答与内容最为接近:一个人形机器人在户外带领一群老年人做伸展操。

这些能力的强大,不是自嗨,而是有数据支撑的。在全球 29 个多模态 Benchmark 测试中,FG-CLIP 2 几乎实现「满环」成绩 ——29 项第一

不论是图文匹配、零样本分类还是跨模态检索,它都稳定、全面、碾压。



「多边形」 战士。FG-CLIP 2 不只是「擅长某些场景」,而是在全维度能力上达到 SOTA 水平,真正实现了全方位突破。

在英文任务上,FG-CLIP 2直接拿下了81.10 的平均分,比 Meta CLIP 2 的 72.71、Google SigLIP 2 的 71.87、OpenAI CLIP 的 64.10 都高出一大截。

在中文任务上,它依旧是那个最懂中文语义的模型。不仅超越 Meta 的多语言模型,还稳压阿里的 Chinese-CLIP,证明自己能真正做到中英双通、语义统一。



在英文语言任务上,FG-CLIP 2 以 81.10 分的平均成绩 取得了断崖式领先。与之相比,Meta CLIP 2 取得了 72.71 分,Google SigLip 2 取得了 71.87 分,而 OpenAI CLIP 仅取得 64.10 分。



它在平均成绩上超越了支持多国语言的 Meta CLIP 2,并领先阿里达摩院的 Chinese-CLIP 等专注中文优化的模型,证明了其双语一致性与跨语种泛化能力。

数据、数据、还是数据

实现「像素级理解」的核心,是高质量的数据,是比硅谷更具优势,更懂语义的图文样本。

熟悉跨模态模型的人都知道,模型的「理解力」不是灵光一现,而是从海量图文对中,一点点学习出来的。

360 正是从这里入手,花了大力气打造了属于自己的「数据炼金炉」——FineHARD 数据集,也由此开辟了细粒度大规模数据的新纪元。

这套数据集,不仅规模足够大,质量也卷到了新高度。FineHARD 的语义一致性、标注精度、局部划分,突破性的填补了同类 CLIP 模型的数据空白。

为了让模型在中文世界「游刃有余」,360 选择了自建数据,仅中文部分就包含高达5 亿对图像与文本

更妙的是,他们还为中文评测补上了长期缺席的一环 —— 自建了 LIT-CN、DCI-CN、DOCCI-CN 等长描述检索集,以及 BoxClass-CN 区域分类集,首次实现了对跨模态模型在中文语言环境下的多维度、双语细粒度能力的全面评估。

在训练过程中,FG-CLIP 2 充分融合了海量的中英文高质量数据,学习两种原生语境,让模型既能「读懂世界」,也能「看懂中国」。

除此以外,360 在数据结构上动了不少巧思,不只是「多」,而是要「精」。

传统 CLIP 的文本描述大多很短,像「这是一只猫」—— 告诉模型「有猫」,但没告诉它「猫在干嘛」。FG-CLIP 2 的数据更加完整,每张图片都配了两段描述:

一条短文本,帮模型迅速把握全局;另一条平均 150 个词的长文本,描绘背景、属性、动作与空间关系等细节。

于是,模型不再只是认识「猫」,而是能理解 「那只趴在沙发上、眯着眼的小橘猫」,在数据层面实现了超高的语义密度。

更进一步,团队还引入了开放世界目标检测(OVD)机制,把每张图片都分解成多个目标区域,并为每个区域生成精准的描述。

最终,整个 FineHARD 数据集最终包含4000 万个目标框及其对应的细粒度描述,模型由此学会了在像素级层面「看世界」。



数据集中包含的长文本、短文本、区域描述示意

当然,要让模型真正有「辨别力」,光知道什么是对的还不够 —— 还得知道什么是错的。

于是,360 又加了一道「狠料」:1000 万组细粒度难负样本

这些样本乍看几乎一模一样,只在细节处藏着陷阱:项圈的颜色、服装的材质、动作的微妙变化。模型若不够尖锐,就会立刻被迷惑。就像之前展示的图像中「伸展操」和「跳舞」的微小区别一样,足以让一般的模型看走眼。

正是这些干扰项,逼着模型不断打磨语义判断力,学会在文本图像的统一空间中远离错误匹配。在复杂场景和相似描述下,也能精准锁定。



细粒度难负样本数据示意

火中淬炼,修得「火眼金睛」

数据集的进化只是序章。要练就像素级的「火眼金睛」,训练方法也得升级。

360 在多模态领域早已是久经沙场的老将,曾发布过开放世界目标检测的 LMM-Det,多模态大模型 360VL 等高质量代表作。

这次,他们把多年积累的经验融会贯通,凝成让模型脱胎换骨的「修炼秘籍」——两阶段训练策略 + 五维协同优化体系,让模型经历一次彻底的蜕变。

修炼的第一步,是「筑基」。模型要先对世界有「全局感知」, 才能在此基础上识别细节。

在这一阶段,FG-CLIP 2 采用与 CLIP 类似的整体语义配对方式,先让模型学会理解图像的大致含义。

但不同的是,FG-CLIP 2 没有停留在 CLIP 的「入门阶段」,而是充分利用训练数据的优势,融入更丰富的语义细节,为模型打下了坚实的「世界观地基」,为后来的像素级学习铺平了路。



CLIP 系列模型对齐训练示意图

「筑基」完毕,便是「炼体」。这一阶段,模型不再停留于整体配对,而是开始聚焦局部,精修细节。

FG-CLIP 2 抛弃了传统的整体对齐策略,转而采用全新的训练策略:图像局部信息与文本局部信息对齐

于是,当它看到「猫咪对视」时,不仅知道猫咪品种,还能准确判断毛发细节、位置关系、甚至是屏幕里的虚拟空间。

模型的视觉能力,也从「识物」进化到「识微」,从模糊的大视野变成了像素级显微镜。



FG-CLIP 2 的两阶段训练

而让 FG-CLIP 2 最终成型的,是五维协同的优化体系。

传统模型往往只对齐图像和文本的整体特征,而 FG-CLIP 2 则在训练目标函数上,同时在五个维度发力 —— 全局对齐、细粒度视觉、细粒度文本、跨模态排序、文本对比学习。

当五条「经脉」同时被打通,模型在对齐精度、语义分辨率、抗干扰性上就有了全面觉醒。

除了训练策略革新,FG-CLIP 2 在视觉处理上也动了巧心思。

他们独创了数据自适应分辨率策略:能根据每批图像的最大尺寸自动选择最佳分辨率,既避免了随机缩放带来的变形,又提高了效率。

看似小改动,却带来了大提升。

看得清,更要用得 6:从基石到行业新支点

如果说 FG-CLIP 2 的诞生,让 AI 第一次拥有了像素级的火眼金睛。那么,它更深远的意义,不只是「看得清」,而是真正被用起来。

如今,FG-CLIP 2 已在 360 的多项业务中落地。如广告配图、IoT 摄像机智能检索、信息流图像搜索、云盘图片识别,成为这些业务场景的智能底座。

更重要的是,FG-CLIP 2 已以 「API + MCP」 的形式全面开放,面向开发者与企业用户,希望这份跨模态理解力,能成为千行百业智能化升级的底层引擎。

在图文检索中,FG-CLIP 2 能真正做到「以文搜图」。输入 「穿红裙、手拿咖啡的女性」,它就能精准锁定对应图像。这一能力在电商、安防、媒体内容管理中极具价值。相比传统 CLIP 只能「抓大意」,FG-CLIP 2 能捕捉细节、召回更准、结果更稳。

在 AIGC 内容生成中,它则是生成模型的「细节监督官」,确保画面在品牌元素、颜色、布局等关键维度与提示语一致,让 AI 生成的内容更精准、可靠。

在内容审核和安防监控领域,它能理解图像局部语义,识别人物、符号或敏感元素,实现「用语言搜视频」的自然检索,大幅提升效率与准确性。

而在具身智能领域,机器人能 get 物体状态与空间关系,依循命令「拿起餐桌上的红色水杯」,「把玩具放进绿色收纳箱」。

厚积成峰,360「棋局」初成

未来的智能竞争,不在于谁的应用更炫,而在于谁能构建出统一、强大的 自主 AI 核心能力。作为一家以安全著称,拥有丰富产品生态的科技企业,360 早已布好棋局,掌控关键落子。

360 人工智能研究院在多模态概念尚未普及之前,就开始投入视觉 — 语言理解方向的研究。他们以「让 AI 看清世界、理解世界、再创造世界」为目标,构建了由三个阶段组成的多模态技术体系:视觉 AIGC、多模态大模型和开放世界目标检测(OVD)。

其中,CLIP 系列模型是整个体系的基石,负责实现视觉与语言的语义对齐。LMM-Det 和 360VL 聚焦于视觉感知与高层语义理解。而 SEEChat、PlanGen 和 HiCo 则将底层能力封装为多模态交互、生成与知识增强功能,形成了可复用、可扩展的多模态技术链条。

与此同时,研究团队也持续保持较高的科研产出。过去三年中,多篇论文被 ICLR、NeurIPS、ICML、ICCV 等国际顶级学术会议接收,逐步形成了从基础研究到应用落地的完整技术闭环。

可以说,FG-CLIP 2 已不仅是一项模型成果,更代表着中国团队在多模态基础研究上的一次系统性探索。未来,随着视觉与语言理解技术的融合深化,这样的底层能力或将成为通用智能的重要支点。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
第一个力挺中国的战友出现!只要日本敢出兵,立马使出一大绝招

第一个力挺中国的战友出现!只要日本敢出兵,立马使出一大绝招

南宫一二
2025-11-19 10:43:00
55岁再婚大妈哭诉:再婚后毛都没有了,真的不想要这样的婚姻了

55岁再婚大妈哭诉:再婚后毛都没有了,真的不想要这样的婚姻了

拾代谈生活
2025-11-16 07:27:02
再见皇马!6500万新大罗离队!传射兼备,天赋高,远赴法甲拿金靴

再见皇马!6500万新大罗离队!传射兼备,天赋高,远赴法甲拿金靴

阿泰希特
2025-11-19 11:38:19
文昌阁火灾原因找到了,游客或面临天价赔偿,管理方也难逃追责

文昌阁火灾原因找到了,游客或面临天价赔偿,管理方也难逃追责

可爱的罗
2025-11-15 06:09:33
面对中国轮番制裁,高市早苗不敢对华反制?日本在考虑长远?

面对中国轮番制裁,高市早苗不敢对华反制?日本在考虑长远?

前沿天地
2025-11-19 12:15:50
黄某在国外被间谍策反,春节期间以拜年为借口,向在党政机关、国防军工单位工作的同学套取内部敏感材料,后被举报,细节披露

黄某在国外被间谍策反,春节期间以拜年为借口,向在党政机关、国防军工单位工作的同学套取内部敏感材料,后被举报,细节披露

极目新闻
2025-11-19 07:58:59
假存款单租奔驰,连父母都是演员!湖北小伙被骗婚案一审开庭,被女方一句话“气笑了”

假存款单租奔驰,连父母都是演员!湖北小伙被骗婚案一审开庭,被女方一句话“气笑了”

潇湘晨报
2025-11-18 12:30:17
詹皇“拒当替补”引爆湖人!40岁巨星的底线,谁也别碰

詹皇“拒当替补”引爆湖人!40岁巨星的底线,谁也别碰

KD说球
2025-11-19 10:33:37
请做好充分准备,世界即将变天!

请做好充分准备,世界即将变天!

水木然
2025-11-17 23:56:09
意大利哭晕 世界杯附加赛死亡签表浮现 首轮或遇2苦主+决赛碰波兰

意大利哭晕 世界杯附加赛死亡签表浮现 首轮或遇2苦主+决赛碰波兰

我爱英超
2025-11-19 07:14:36
南京市代市长、副市长,同日调整

南京市代市长、副市长,同日调整

鲁中晨报
2025-11-18 21:11:03
笑死!主办方投降了!荒野求生挑战赛第41天,14位选手全部进决赛

笑死!主办方投降了!荒野求生挑战赛第41天,14位选手全部进决赛

恪守原则和底线
2025-11-18 19:21:02
特朗普万万没想不到,没有适航证,C919也能飞出国门

特朗普万万没想不到,没有适航证,C919也能飞出国门

兵器展望
2025-11-18 19:28:37
苹果折叠屏iPhone再曝新进展:富士康已搭建专属生产线

苹果折叠屏iPhone再曝新进展:富士康已搭建专属生产线

界面新闻
2025-11-19 10:09:48
“冷美人”退赛后开启首场直播,病房内洗头引十多万网友围观

“冷美人”退赛后开启首场直播,病房内洗头引十多万网友围观

极目新闻
2025-11-18 23:39:18
霍思燕杜江机场甜蜜牵手,不少人还感慨,杜江对霍思燕那眼神、那动作,简直就是生理性喜欢的典范。

霍思燕杜江机场甜蜜牵手,不少人还感慨,杜江对霍思燕那眼神、那动作,简直就是生理性喜欢的典范。

今古深日报
2025-11-19 10:40:40
马斯克透露:特斯拉不玩特权这套,职场无阶级,吃饭停车完全平等!网友:这样老板赚得更多

马斯克透露:特斯拉不玩特权这套,职场无阶级,吃饭停车完全平等!网友:这样老板赚得更多

大白聊IT
2025-11-18 17:17:40
暂未下映的《鬼灭之刃》,再创历史

暂未下映的《鬼灭之刃》,再创历史

导筒directube
2025-11-19 00:10:05
三季报炸了!雷军的“愤怒”与小米的撕裂

三季报炸了!雷军的“愤怒”与小米的撕裂

杠杆游戏
2025-11-18 23:32:23
寿命长短与喝酒有很大关系?调查11558名饮酒者,终于得出答案

寿命长短与喝酒有很大关系?调查11558名饮酒者,终于得出答案

39健康网
2025-11-06 10:34:05
2025-11-19 13:44:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
11750文章数 142507关注度
往期回顾 全部

科技要闻

一夜封神,Gemini 3让谷歌找回“碾压感”

头条要闻

小伙花20万娶到"下嫁"新娘 发现"厅官"岳父是短剧演员

头条要闻

小伙花20万娶到"下嫁"新娘 发现"厅官"岳父是短剧演员

体育要闻

世界杯最小参赛国诞生!15万人岛国的奇迹

娱乐要闻

又反转!曝喻恩泰出轨美女律师

财经要闻

黄金税改两周,水贝低价神话终结?

汽车要闻

脱胎换骨的优秀底盘Get 新款享界S9动态驾驶体验

态度原创

教育
数码
房产
本地
军事航空

教育要闻

最负责任的交亲

数码要闻

"满电Buff"续满!航嘉校园行xPConline即将上线对外经济贸易大学

房产要闻

29.4亿!海南“地王”片区,要卖超级宅地!

本地新闻

这档古早综艺,怎么就成了年轻人的哆啦A梦?

军事要闻

量大管饱 中国军网在海外发布备战视频

无障碍浏览 进入关怀版