网易首页 > 网易号 > 正文 申请入驻

中英双语、29项第一、像素级理解:360 FG-CLIP2登顶全球最强图文跨模态模型

0
分享至

来源:市场资讯

(来源:机器之心)

机器之心原创

编辑:吴昕、冷猫

这年头,AI 创造的视觉世界真是炫酷至极。但真要跟细节较真儿,这些大模型的「眼力见儿」可就让人难绷了。

比如,我让它画「一只穿红外套的猫,站在一辆蓝色跑车左边,蓝色跑车后面是一辆白色 SUV。」


抽卡两次,全翻车。模型似乎还没整明白,「后面」到底是个什么空间关系。

换个路子去搜图:「一辆红色的特斯拉,引擎盖上很多鸟粪」。两排图翻下来,真正对得上的只有一张。


无论是淘一件女明星带火的「蓝色中式茧形设计棉服」,还是「大话西游里的周星驰,手拿紧箍咒」,结果嘛 ,都不让人省心。


好消息是,这毛病终于要被整治了。

就在我还在吐槽它「看个大概、看不清细节」的时候,360 那边又放了个大招 FG-CLIP 2。

它就像是给 AI 装了一台显微镜,看图精确到像素级。毛发、斑点、色彩、表情、位置,全都看得清。

在八大类任务、29 项测试中,FG-CLIP 2 全面超越 Google 与 Meta, 一跃成为目前最强的图文跨模态 VLM 模型。

而且,中英文都玩得 6,真正的:全球最强,又最懂我们。更让人拍手称快的是,360 已经将它开源了!(搓搓小手)


  • Github:

    https://github.com/360CVGroup/FG-CLIP

  • 论文:

    https://arxiv.org/abs/2510.10921

  • 项目主页:

    https://360cvgroup.github.io/FG-CLIP/

「明察秋毫」,拿了 29 项第一

我们来看下面这张图。你脑海里蹦出的第一个词是什么?

大概率是「猫在看屏幕」,或者更具体点 「一只猫看着一只屏幕里的猫」。

很好,你一下敏锐捕捉到了画面中最核心的信息,也就是一只猫在屏幕里。


FG-CLIP 2 猫咪图像标签匹配结果示意。「一只狸花猫和屏幕中的英短相互对视」的结果置信度 88%。

但对于传统 CLIP 模型来说,从一张仅有二维平面信息的图像中识别屏幕内的信息,恐怕已经超出了理解能力的上限 ——

它们只能认出猫和基本动作,却完全搞不清它们的细节,尤其是屏幕里的那只。

而 FG-CLIP 2 不仅能准确理解空间关系,还通过毛发纹理的细节特征,精准区分出猫的品种:一只是狸花猫,另一只是屏幕里的英短猫。

这样识微入毫能力,可不是凭空炼成的。

其实早在 2021 年,OpenAI 靠一篇 48 页的论文打造出多模态领域的开山之作 CLIP——

它第一次让机器学会了「图文配对」,在同一个语义空间里理解世界,从此打开了视觉智能的大门。

此后,Google 推出 SigLIP,Meta 推出 MetaCLIP,一度撑起图文理解模型的「天花板」。

但说实话,即便再强,这些传统 CLIP 模型依然有一个致命短板 —— 它们都很近视:

  • 看不清细节,毛发、纹理无法分辨;

  • 搞不清方位,上下左右容易混淆;

  • 分不清语义,相似的文字经常错配;

  • 中文,细粒度理解几乎处于失明状态。

因为近视,CLIP 系列模型在搜索、推荐、文生图等任务里常常力不从心。

今年 4 月,360 推出了第一代 FG-CLIP,给模型装上了「近视镜」,初步解决了看不清细节的毛病。而这次的 FG-CLIP 2,相当于直接换上了「显微镜」—— 清晰度和理解力暴增。

再看看这张图。户外环境复杂、主体很多、还有高度迷惑性的动作。连人看了都要愣一下,这是干嘛呢?


MetaCLIP 2 非要说是「室内」, SigLIP 2 更离谱,说这是手拉手跳舞,只有 FG-CLIP 2 回答最接近图片内容,「一个人形机器人在户外带领一群老年人做伸展操」。

结果,连 MetaCLIP 2、SigLIP 2 都被整哑火 ——MetaCLIP 2 认成了「室内」,SigLIP 2 更离谱,说是人和机器人「手拉手跳舞」,连地点也没整明白。

只有 FG-CLIP 2 的回答与内容最为接近:一个人形机器人在户外带领一群老年人做伸展操。

这些能力的强大,不是自嗨,而是有数据支撑的。在全球 29 个多模态 Benchmark 测试中,FG-CLIP 2 几乎实现「满环」成绩 ——29 项第一。

不论是图文匹配、零样本分类还是跨模态检索,它都稳定、全面、碾压。


「多边形」 战士。FG-CLIP 2 不只是「擅长某些场景」,而是在全维度能力上达到 SOTA 水平,真正实现了全方位突破。

在英文任务上,FG-CLIP 2 直接拿下了 81.10 的平均分,比 Meta CLIP 2 的 72.71、Google SigLIP 2 的 71.87、OpenAI CLIP 的 64.10 都高出一大截。

在中文任务上,它依旧是那个最懂中文语义的模型。不仅超越 Meta 的多语言模型,还稳压阿里的 Chinese-CLIP,证明自己能真正做到中英双通、语义统一。


在英文语言任务上,FG-CLIP 2 以 81.10 分的平均成绩 取得了断崖式领先。与之相比,Meta CLIP 2 取得了 72.71 分,Google SigLip 2 取得了 71.87 分,而 OpenAI CLIP 仅取得 64.10 分。


它在平均成绩上超越了支持多国语言的 Meta CLIP 2,并领先阿里达摩院的 Chinese-CLIP 等专注中文优化的模型,证明了其双语一致性与跨语种泛化能力。

数据、数据、还是数据

实现「像素级理解」的核心,是高质量的数据,是比硅谷更具优势,更懂语义的图文样本。

熟悉跨模态模型的人都知道,模型的「理解力」不是灵光一现,而是从海量图文对中,一点点学习出来的。

360 正是从这里入手,花了大力气打造了属于自己的「数据炼金炉」——FineHARD 数据集,也由此开辟了细粒度大规模数据的新纪元。

这套数据集,不仅规模足够大,质量也卷到了新高度。FineHARD 的语义一致性、标注精度、局部划分,突破性的填补了同类 CLIP 模型的数据空白。

为了让模型在中文世界「游刃有余」,360 选择了自建数据,仅中文部分就包含高达5 亿对图像与文本。

更妙的是,他们还为中文评测补上了长期缺席的一环 —— 自建了 LIT-CN、DCI-CN、DOCCI-CN 等长描述检索集,以及 BoxClass-CN 区域分类集,首次实现了对跨模态模型在中文语言环境下的多维度、双语细粒度能力的全面评估。

在训练过程中,FG-CLIP 2 充分融合了海量的中英文高质量数据,学习两种原生语境,让模型既能「读懂世界」,也能「看懂中国」。

除此以外,360 在数据结构上动了不少巧思,不只是「多」,而是要「精」。

传统 CLIP 的文本描述大多很短,像「这是一只猫」—— 告诉模型「有猫」,但没告诉它「猫在干嘛」。FG-CLIP 2 的数据更加完整,每张图片都配了两段描述:

一条短文本,帮模型迅速把握全局;另一条平均 150 个词的长文本,描绘背景、属性、动作与空间关系等细节。

于是,模型不再只是认识「猫」,而是能理解 「那只趴在沙发上、眯着眼的小橘猫」,在数据层面实现了超高的语义密度。

更进一步,团队还引入了开放世界目标检测(OVD)机制,把每张图片都分解成多个目标区域,并为每个区域生成精准的描述。

最终,整个 FineHARD 数据集最终包含 4000 万个目标框及其对应的细粒度描述,模型由此学会了在像素级层面「看世界」。


当然,要让模型真正有「辨别力」,光知道什么是对的还不够 —— 还得知道什么是错的。

于是,360 又加了一道「狠料」:1000 万组细粒度难负样本。

这些样本乍看几乎一模一样,只在细节处藏着陷阱:项圈的颜色、服装的材质、动作的微妙变化。模型若不够尖锐,就会立刻被迷惑。就像之前展示的图像中「伸展操」和「跳舞」的微小区别一样,足以让一般的模型看走眼。

正是这些干扰项,逼着模型不断打磨语义判断力,学会在文本图像的统一空间中远离错误匹配。在复杂场景和相似描述下,也能精准锁定。


火中淬炼,修得「火眼金睛」

数据集的进化只是序章。要练就像素级的「火眼金睛」,训练方法也得升级。

360 在多模态领域早已是久经沙场的老将,曾发布过开放世界目标检测的 LMM-Det,多模态大模型 360VL 等高质量代表作。

这次,他们把多年积累的经验融会贯通,凝成让模型脱胎换骨的「修炼秘籍」—— 两阶段训练策略 + 五维协同优化体系,让模型经历一次彻底的蜕变。

修炼的第一步,是「筑基」。模型要先对世界有「全局感知」, 才能在此基础上识别细节。

在这一阶段,FG-CLIP 2 采用与 CLIP 类似的整体语义配对方式,先让模型学会理解图像的大致含义。

但不同的是,FG-CLIP 2 没有停留在 CLIP 的「入门阶段」,而是充分利用训练数据的优势,融入更丰富的语义细节,为模型打下了坚实的「世界观地基」,为后来的像素级学习铺平了路。


CLIP 系列模型对齐训练示意图

「筑基」完毕,便是「炼体」。这一阶段,模型不再停留于整体配对,而是开始聚焦局部,精修细节。

FG-CLIP 2 抛弃了传统的整体对齐策略,转而采用全新的训练策略:图像局部信息与文本局部信息对齐。

于是,当它看到「猫咪对视」时,不仅知道猫咪品种,还能准确判断毛发细节、位置关系、甚至是屏幕里的虚拟空间。

模型的视觉能力,也从「识物」进化到「识微」,从模糊的大视野变成了像素级显微镜。


而让 FG-CLIP 2 最终成型的,是五维协同的优化体系。

传统模型往往只对齐图像和文本的整体特征,而 FG-CLIP 2 则在训练目标函数上,同时在五个维度发力 —— 全局对齐、细粒度视觉、细粒度文本、跨模态排序、文本对比学习。

当五条「经脉」同时被打通,模型在对齐精度、语义分辨率、抗干扰性上就有了全面觉醒。

除了训练策略革新,FG-CLIP 2 在视觉处理上也动了巧心思。

他们独创了数据自适应分辨率策略:能根据每批图像的最大尺寸自动选择最佳分辨率,既避免了随机缩放带来的变形,又提高了效率。

看似小改动,却带来了大提升。

看得清,更要用得 6:从基石到行业新支点

如果说 FG-CLIP 2 的诞生,让 AI 第一次拥有了像素级的火眼金睛。那么,它更深远的意义,不只是「看得清」,而是真正被用起来。

如今,FG-CLIP 2 已在 360 的多项业务中落地。如广告配图、IoT 摄像机智能检索、信息流图像搜索、云盘图片识别,成为这些业务场景的智能底座。

更重要的是,FG-CLIP 2 已以 「API + MCP」 的形式全面开放,面向开发者与企业用户,希望这份跨模态理解力,能成为千行百业智能化升级的底层引擎。

在图文检索中,FG-CLIP 2 能真正做到「以文搜图」。输入 「穿红裙、手拿咖啡的女性」,它就能精准锁定对应图像。这一能力在电商、安防、媒体内容管理中极具价值。相比传统 CLIP 只能「抓大意」,FG-CLIP 2 能捕捉细节、召回更准、结果更稳。

在 AIGC 内容生成中,它则是生成模型的「细节监督官」,确保画面在品牌元素、颜色、布局等关键维度与提示语一致,让 AI 生成的内容更精准、可靠。

在内容审核和安防监控领域,它能理解图像局部语义,识别人物、符号或敏感元素,实现「用语言搜视频」的自然检索,大幅提升效率与准确性。

而在具身智能领域,机器人能 get 物体状态与空间关系,依循命令「拿起餐桌上的红色水杯」,「把玩具放进绿色收纳箱」。

厚积成峰,360「棋局」初成

未来的智能竞争,不在于谁的应用更炫,而在于谁能构建出统一、强大的 自主 AI 核心能力。作为一家以安全著称,拥有丰富产品生态的科技企业,360 早已布好棋局,掌控关键落子。

360 人工智能研究院在多模态概念尚未普及之前,就开始投入视觉 — 语言理解方向的研究。他们以「让 AI 看清世界、理解世界、再创造世界」为目标,构建了由三个阶段组成的多模态技术体系:视觉 AIGC、多模态大模型和开放世界目标检测(OVD)。

其中,CLIP 系列模型是整个体系的基石,负责实现视觉与语言的语义对齐。LMM-Det 和 360VL 聚焦于视觉感知与高层语义理解。而 SEEChat、PlanGen 和 HiCo 则将底层能力封装为多模态交互、生成与知识增强功能,形成了可复用、可扩展的多模态技术链条。

与此同时,研究团队也持续保持较高的科研产出。过去三年中,多篇论文被 ICLR、NeurIPS、ICML、ICCV 等国际顶级学术会议接收,逐步形成了从基础研究到应用落地的完整技术闭环。

可以说,FG-CLIP 2 已不仅是一项模型成果,更代表着中国团队在多模态基础研究上的一次系统性探索。未来,随着视觉与语言理解技术的融合深化,这样的底层能力或将成为通用智能的重要支点。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
苹果官网上架马年手机保护壳,售价449元

苹果官网上架马年手机保护壳,售价449元

界面新闻
2026-01-06 11:14:08
美国情况不妙,特朗普刚对华做出承诺,马上就发现:朝鲜有大动作

美国情况不妙,特朗普刚对华做出承诺,马上就发现:朝鲜有大动作

时尚的弄潮
2026-01-06 20:18:52
美国犯下大错!总统被抓后委内瑞拉更加强大!中俄或提供重大支持

美国犯下大错!总统被抓后委内瑞拉更加强大!中俄或提供重大支持

博览历史
2026-01-05 18:44:08
曹德旺预言要成真?如果不出意外,2026年房价或将迎来5大转变

曹德旺预言要成真?如果不出意外,2026年房价或将迎来5大转变

阿离家居
2026-01-06 13:04:19
中俄情侣的生理差异:婚前未了解或引发婚后矛盾

中俄情侣的生理差异:婚前未了解或引发婚后矛盾

特约前排观众
2025-12-16 00:10:07
上诉了!上诉了!倾家族之力想保一条命?金毛还想逆风翻盘?

上诉了!上诉了!倾家族之力想保一条命?金毛还想逆风翻盘?

魔都姐姐杂谈
2025-12-17 08:58:26
41岁后25+7+7!勒布朗再创历史首见纪录 美媒晒四数据赞GOAT

41岁后25+7+7!勒布朗再创历史首见纪录 美媒晒四数据赞GOAT

颜小白的篮球梦
2026-01-06 08:07:50
港影:《风云雄霸天下》,为大片而生的郭富城,一场缘起缘灭

港影:《风云雄霸天下》,为大片而生的郭富城,一场缘起缘灭

唐泪
2026-01-05 16:33:32
担忧!美军3小时生擒马杜罗,中国620亿投资恐清零,能源安全告急

担忧!美军3小时生擒马杜罗,中国620亿投资恐清零,能源安全告急

社会日日鲜
2026-01-04 06:49:52
法国专家:中国国产氦气产能狂飙,美国禁令将成为一个“笑话”

法国专家:中国国产氦气产能狂飙,美国禁令将成为一个“笑话”

通鉴史智
2026-01-06 11:34:53
再提中国,声称对委军事行动不会影响中美关系,懂王在担忧什么?

再提中国,声称对委军事行动不会影响中美关系,懂王在担忧什么?

趣生活
2026-01-06 21:04:32
为什么越来越多的人要去山姆买车厘子?

为什么越来越多的人要去山姆买车厘子?

风味人间
2026-01-06 18:52:48
大布让父母亲向妻子道歉,贝嫂含蓄回应:我们没有什么好抱歉的

大布让父母亲向妻子道歉,贝嫂含蓄回应:我们没有什么好抱歉的

小书生吃瓜
2026-01-03 16:58:09
1949年中英冲突发生后,丘吉尔欲派遣航母以武力报复中国,毛泽东对此质问:你报复什么?

1949年中英冲突发生后,丘吉尔欲派遣航母以武力报复中国,毛泽东对此质问:你报复什么?

史海孤雁
2026-01-05 13:43:12
10年前,那个嫁给知名主持的豪门千金李白,现如今的她过得怎样

10年前,那个嫁给知名主持的豪门千金李白,现如今的她过得怎样

查尔菲的笔记
2026-01-03 21:27:19
周定洋无人问津 蓉城续3虎官宣子铭 球迷:省着点用 我牛等用二手

周定洋无人问津 蓉城续3虎官宣子铭 球迷:省着点用 我牛等用二手

刀锋体育
2026-01-06 19:54:09
by2广州合体开唱,薄纱透视装亮相大秀身材!性感火辣,美丽动人

by2广州合体开唱,薄纱透视装亮相大秀身材!性感火辣,美丽动人

阿废冷眼观察所
2026-01-06 15:19:16
2025年,5国被踢出发达国家行列,分别都是谁?

2025年,5国被踢出发达国家行列,分别都是谁?

泠泠说史
2025-10-12 17:40:53
落袋为安!90岁老人套现10个亿跑了,能卖的全卖,不能卖的全质押

落袋为安!90岁老人套现10个亿跑了,能卖的全卖,不能卖的全质押

来科点谱
2025-11-17 09:05:36
赫鲁晓夫谈贝利亚:一个令人畏惧的刽子手,一个欲念膨胀的老色胚

赫鲁晓夫谈贝利亚:一个令人畏惧的刽子手,一个欲念膨胀的老色胚

大运河时空
2026-01-06 15:55:03
2026-01-06 21:59:00
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
1934074文章数 5178关注度
往期回顾 全部

科技要闻

速看!黄仁勋万字实录:甩出"物理AI"王牌

头条要闻

媒体:美军跨国突击委 与4年前俄军行动形成鲜明对比

头条要闻

媒体:美军跨国突击委 与4年前俄军行动形成鲜明对比

体育要闻

从NBA最菜首发控卫,到NBA最强乔治

娱乐要闻

2026年央视春晚彩排照曝光!

财经要闻

价格跳水、转型不易 陈华也难救茅台?

汽车要闻

摩登出街潮品 实拍奇瑞QQ冰淇淋女王版

态度原创

艺术
家居
亲子
房产
军事航空

艺术要闻

2026马年赵孟頫高清集字春联大放送,收藏备用!

家居要闻

引光之宅 地下室也有生机

亲子要闻

孩子叫你“妈妈”和“妈”,是何感受?

房产要闻

爆发!三亚开年超千亩城更计划曝光,香港城砸下100亿!

军事要闻

美称对“占领”委内瑞拉保留选择权

无障碍浏览 进入关怀版