网易首页 > 网易号 > 正文 申请入驻

格灵深瞳RICE模型狂刷榜单,让AI「看懂」图片的每个细节

0
分享至



最近,格灵深瞳公司灵感团队自研的视觉模型基座RICE(MVT v1.5)再次惊艳全场,刷榜多项视觉任务。

RICE 作为 MVT 系列的新模型,继续延续前作 Unicom(MVT v1.0)和 MLCD(MVT v1.1)的视觉预训练理念,秉持着margin 表征代表语义的核心观点,在顶级学术会议 ICCV25 上获得 Highlight 荣誉。



  • 代码地址:
  • https://github.com/deepglint/MVT
  • 论文地址:
  • https://arxiv.org/abs/2507.20025
  • 模型地址:
  • https://huggingface.co/DeepGlint-AI/rice-vit-large-patch14-560

MVT 系列作为灵感团队自研的视觉基座预训练方法,从 1.0 开始,就聚焦于如何让视觉模型利用海量的数据集进行更加准确的视觉语义表征。MVT 系列灵感来自于格灵深瞳公司的顶尖技术 —— 人脸识别算法,得益于在人脸识别领域积累的大量训练经验和视觉表征认知。

团队深刻认识到,视觉知识就像不同的人脸一样,名字只是赋予的人为语义,只要能充分做到不同语义之间的差异化表征,即可做到让各种下游任务以及 LLM 轻松识别这些差异化表征与人类认知之间的对应关系。

基于此思路,MVT v1.0 成功站在巨人的肩膀上,利用当时最先进的 CLIP 预训练模型为海量图文数据进行特征提取。再利用 kmeans 算法,将所有的特征聚类为一百万个不同类别,并为图片进行打标。MVT v1.0 在图片分类、检索等不同领域均获得了 SOTA 级别的表现。



MVT v1.0 方法中的每个样本的学习其实是基于超大规模的数据集总结出来的,超越了 CLIP 这类方法的 batch 类差异化学习的限制。

灵感团队继续研究发现对图像赋予单一的标签,可能会将一些其他正确的标签被当成负样本学习 —— 人类对于事物的认知是多样的。基于此思想,团队推出 MVT v1.1 的工作,给每张图像分配 top-k 个软标签,进一步提高视觉基座对图像编码的语义丰富性。



新一代视觉模型基座 ——RICE

本次的 MVT v1.5——RICE 是沿着前作思想,并进一步洞悉图像语义组成方式的又一力作。

团队研究发现一张图片的信息往往是多种无 / 弱关联视觉元素拼接而成,直接对图片内的不同视觉元素进行监督可能更加符合人类对于图片信息的处理,也能进一步成为目标检测、分割等下游任务更好的基座视觉模型。除此之外,图片中存在的字符块也被此框架所兼容,其字符本身即为该区域图片的语义信息。

为此,团队使用 SAM 对潜在的区域级对象进行了搜索,并对整个数据集中的区域级对象进行特征提取和聚类,最终从 400M 的图像中得到 2B 个图像区域级对象,并聚类为一百万个区域级语义类别标签。针对图像字符块,团队使用 PaddleOCR 从 50M 图片中提取出 400M 的字符级别候选区域,使用字符直接作为类别标签。



在训练过程中,每张图片有大约 10 个区域级对象需要进行学习,团队提出一种Region Attention Layer 模块用于加速模型训练。模型主体部分 ——Encoder 使用经典的 ViT 结构,对于最后一层的视觉特征图则使用 mask 机制对属于同一对象的视觉特征进行提取,完整图片的 class embedding 作为 Q 对区域级别的视觉特征进行 QKV 注意力计算,得到该区域的 Region Class Embedding 作为区域类别语义进行分类损失计算。



相比于 MVT v1.1 这类以全图语义信息编码的训练方法,RICE 在训练过程中,图片内部的视觉特征差异性得到了有效的提升。这表明随着训练的进行,视觉编码器对于图片内部元素的语义表征变得更加丰富。



完备实验验证

RICE 作为新的视觉基座,在多种不同的下游任务上进行了充分的实验验证。

检测任务

RICE 不仅在经典的 COCO 和 LVIS 任务上验证了检测任务上的 Linear Prob 能力,还在包含了 100 种不同场景检测任务的 Roboflow100 上进行了与其他先进的视觉基座进行了公平比较。针对区域级别语义学习的预训练方法,让 RICE 在这类任务上有着得天独厚的优势,在几乎所有指标上获得了最好的结果。



多模态分割任务

多模态分割任务作为多模态领域重要的方向之一,RICE 使用经典的 LLaVA 系列多模态框架,使用 LISA 方法进行训练,在 refCOCO 系列的所有子集上均获得了显著的提升。



视频追踪任务

尽管 RICE 是基于图片进行训练的,但其 ROPE 的位置编码方式以及跨图片的区域级对象聚类方法,使得 RICE 可以接收不同尺寸的视频输入,并对于不同视频帧中的相同目标进行持续追踪。RICE 在 4 个不同的视频追踪相关任务上均获得了领先表现,从特征降采样后的可视化效果来看,模型能够很好的对不同帧中的同一类别物体进行持续追踪。



多模态问答任务

多模态模型是现在视觉基座模型的兵家必争之地。在 LLaVA 系列的主流训练架构中,使用 RICE 作为视觉编码器在多个基准测试上获得了更好的效果。尤其是得益于其在预训练方法可以无缝兼容光学字符识别,使得基于 RICE 视觉基座的多模态模型在 OCR 相关任务上获得了显著的优势。下表源自 LLaVA- OneVision-1.5 技术报告:



最近,RICE 被作为 LLaVA-OneVision-1.5 的视觉编码器,助力其成为和 Qwen2.5-VL 系列可比的全开源的卓越工作。



结论


RICE 作为格灵深瞳公司 MVT 系列的又一力作,在多个层面上展现了他们对于视觉预训练的深刻理解与洞察。RICE 的成功证明了:视觉语义信息在学习时应当注重差异化,可以保证不同下游任务轻松区分并快速识别不同的语义信息;图片中的视觉元素很多的时候是无 / 弱关联,因此区域内的视觉元素学习能够更好的完整表征图片信息。

下一步,MVT 系列即将开启 v2.0—— 视频编码工作,图像是对当前场景的一个静态帧,视频则是对真实世界的直接记录。视频中有大量的信息可以挖掘,是通往 AGI 之路的金矿山。MVT 将继续沿着前作的差异化语义表征的路线,开启视频编码时代的下一个新 SOTA!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
外交部:任何势力胆敢阻挠中国的统一大业,都是痴心妄想、螳臂当车

外交部:任何势力胆敢阻挠中国的统一大业,都是痴心妄想、螳臂当车

澎湃新闻
2025-11-14 18:02:26
从确诊到去世仅15天,“央视最帅主持人”的遭遇为人们敲响警钟

从确诊到去世仅15天,“央视最帅主持人”的遭遇为人们敲响警钟

银河史记
2025-11-03 19:31:33
热搜离谱的“广东缆车口老仙女打砸”事件:光看衣服,就强的可怕

热搜离谱的“广东缆车口老仙女打砸”事件:光看衣服,就强的可怕

嫹笔牂牂
2025-11-14 07:23:33
一乐队主唱被剧院电动座椅架挤压离世,事发场馆:已与家属协商!有市民称该场馆内座椅系一体化设计,可折叠收上墙

一乐队主唱被剧院电动座椅架挤压离世,事发场馆:已与家属协商!有市民称该场馆内座椅系一体化设计,可折叠收上墙

每日经济新闻
2025-11-14 16:17:10
大疆之后,深圳五个年轻人,又杀出一个“全球第一”!

大疆之后,深圳五个年轻人,又杀出一个“全球第一”!

史纪文谭
2025-11-12 11:24:53
大爷打了女婿的狗,女婿怒斥:要么道歉要么滚,大爷:我选第三种

大爷打了女婿的狗,女婿怒斥:要么道歉要么滚,大爷:我选第三种

惟来
2025-11-14 07:57:18
随着荷兰1-1波兰,德国2-0,世预赛最新积分榜:克罗地亚进世界杯

随着荷兰1-1波兰,德国2-0,世预赛最新积分榜:克罗地亚进世界杯

侃球熊弟
2025-11-15 04:49:44
400万亿什么时候来?等待我们的是什么?

400万亿什么时候来?等待我们的是什么?

混知房产
2025-11-13 20:41:06
红军长征,项英为何喜形于色地留下?陈毅:他的想法让人哭笑不得

红军长征,项英为何喜形于色地留下?陈毅:他的想法让人哭笑不得

顾史
2025-11-14 10:14:17
快报!快报日本突然宣布了

快报!快报日本突然宣布了

忠于法纪
2025-11-15 09:22:48
反转来了!被告人律师称,狗主人郭某或是被自己的猪队友误伤致命

反转来了!被告人律师称,狗主人郭某或是被自己的猪队友误伤致命

火山诗话
2025-11-14 07:08:14
比福建舰更牛的力量出现?军事专家项立刚预言,相当于100艘航母

比福建舰更牛的力量出现?军事专家项立刚预言,相当于100艘航母

墨兰史书
2025-11-14 12:15:03
刚攻下红军城,普京政府通告全球:中俄不必缔结同盟,赢家不是俄

刚攻下红军城,普京政府通告全球:中俄不必缔结同盟,赢家不是俄

林子说事
2025-11-15 07:40:17
冠中冠:赵心童惨败特鲁姆普无缘决赛,准神自称只发挥了一成实力

冠中冠:赵心童惨败特鲁姆普无缘决赛,准神自称只发挥了一成实力

世界体坛观察家
2025-11-15 06:42:26
中美GDP预测,美冲上217万亿屈居第二,中国反超71万亿,登顶第一

中美GDP预测,美冲上217万亿屈居第二,中国反超71万亿,登顶第一

卷史
2025-11-14 15:36:27
独行侠老板悄然纠错!纠正哈里森留下的安东尼・戴维斯乱局

独行侠老板悄然纠错!纠正哈里森留下的安东尼・戴维斯乱局

夜白侃球
2025-11-15 09:56:46
挑衅!沈伯洋现身德国,叫嚷“来抓我啊”,大陆再出手,杀鸡儆猴

挑衅!沈伯洋现身德国,叫嚷“来抓我啊”,大陆再出手,杀鸡儆猴

面包夹知识
2025-11-14 00:13:50
山西血案死者妹妹双标发引众怒!自私刻进骨子里,网友:脸都不要

山西血案死者妹妹双标发引众怒!自私刻进骨子里,网友:脸都不要

三农老历
2025-11-15 03:17:52
吴石的后人有点意思:明明父亲是烈士,儿子吴韶成在河南格外低调

吴石的后人有点意思:明明父亲是烈士,儿子吴韶成在河南格外低调

小虎新车推荐员
2025-11-14 14:54:30
车辆撞断江堤护栏冲入长江,至少一人不幸身亡;浦东应急局:他1个小时内被救上来

车辆撞断江堤护栏冲入长江,至少一人不幸身亡;浦东应急局:他1个小时内被救上来

极目新闻
2025-11-14 13:54:58
2025-11-15 10:11:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
11720文章数 142505关注度
往期回顾 全部

科技要闻

2025年天猫双11近600品牌成交破亿

头条要闻

牛弹琴:中方对高市早苗的愤怒升级 严重后果正在显现

头条要闻

牛弹琴:中方对高市早苗的愤怒升级 严重后果正在显现

体育要闻

7-0狂胜!15万人口小岛离世界杯只差1分

娱乐要闻

王家卫让古二替秦雯写剧情主线?

财经要闻

银行直供房激增 有房产低于市场均价54%

汽车要闻

小鹏X9超级增程动态评测全网首发 高速实测车内65分贝

态度原创

教育
时尚
健康
房产
军事航空

教育要闻

直播预告 | 一所小学的省级教学成果奖特等奖是怎样“炼”成的?周日见!

什么?!你告诉我佘诗曼已经50岁了

金振口服液助力科学应对呼吸道疾病

房产要闻

共话产业变革下的投资新思维与新机遇|蓝湾财富论坛精华

军事要闻

解密福建舰电磁弹射背后的硬核支撑

无障碍浏览 进入关怀版