网易首页 > 网易号 > 正文 申请入驻

英伟达华人硬核AI神器,「描述一切」秒变细节狂魔!仅3B逆袭GPT-4o

0
分享至

新智元报道

编辑:桃子

【新智元导读】视觉AI终极突破来了!英伟达等机构推出超强多模态模型DAM,仅3B参数,就能精准描述图像和视频中的任何细节。

有了AI,谁还愿意用手配「字幕」?

刚刚,英伟达联手UC伯克利、UCSF团队祭出首个神级多模态模型——Describe Anything Model(DAM),仅3B参数。

论文地址:https://arxiv.org/pdf/2504.16072

正如其名Describe Anything,上传一张图,圈哪点哪,它即可生成一段丰富的文字描述。

即便是一段视频,DAM也能精准捕捉到白色SUV,给出详细的描述。

DAM是一个专为详细局部标注(DLC)而设计的模型,即为特定区域生成详细且精确的描述。

通过两大创新,研究人员在细节与上下文之间找到平衡:

· 焦点提示:对目标区域进行高分辨率编码,就像给模型配备了一副「放大镜」,清晰捕捉到局部区域细微特征

· 局部视觉骨干网络:将精确定位的特定区域,与上下文无缝整合

换句话说,DAM不仅能放大细节看,还能放眼全局看,无论是静态图,还是动态视频,都能做到游刃有余。

网友惊叹道,「终极视觉AI突破」!

AI用「放大镜」看世界

在项目主页中,英伟达等研究团队放出了更多精彩demo。任何人通过点、框、涂鸦或掩码的交互,即可一键生成描述。

上传一张柯基在草地上欢快奔跑的图,选中柯基,让DAM去描述:

一只中等体型的狗,拥有浓密的红棕色毛发,腹部和腿部为白色。这只狗尾巴蓬松,耳朵尖立,戴着带有银色吊牌的红色项圈。它张着嘴露出牙齿,舌头伸在外面。狗呈奔跑姿势,前腿向前伸展,后腿向后伸直。

一只被挤到犄角旮旯的猫星人,DAM是这样配文的,「一只白猫,耳朵呈浅橙色,鼻子是粉色的。猫咪表情放松,眼睛微微闭着,全身覆盖着柔软的白毛」。

再比如,随手涂鸦一栋高楼,DAM可以不断放大细节,给出这幢楼更细致的描述:

一座现代风格的摩天大楼,采用流线型矩形设计,外立面排列着间距均匀的竖向条形窗。建筑呈阶梯式结构,每一层段都比下层略微内缩,形成错落有致的退台造型。建筑幕墙主要由反光玻璃面板构成,整体呈现出极具现代感的抛光效果。

甚至,DAM看着视频中的一头牛,就能直出一篇经典「小作文」:

一幅描绘棕褐色奶牛的动态序列图:这头毛色浓密的奶牛臀部带有浅色斑块,初始画面中它微微低头,透着安详的神态。随着动作展开,奶牛开始稳步前行,四肢舒展着节奏分明的步态,尾梢的簇毛随每一步轻摆,为行进增添流畅韵律。它始终保持挺拔的站姿,略微弓起的背部线条透出放松状态,肌肉结实的腿部稳健地向前迈进。整个运动过程中,奶牛保持着均匀从容的步调,每一个动作都流畅而不迫,展现出宁静自若的生命姿态。

DAM如此厉害,是如何做到的?

DAM技术架构,精准捕捉细节

与传统图像描述(概括整个场景)不同,DLC聚焦于用户指定的局部区域,来生成细致入微的描述。

想象一张照片中一只猫,你不仅需要描述「一只猫在窗台上」,还要深入些几「猫的毛发呈现柔软和灰色条纹,耳朵微微倾斜,眼睛在阳光下闪着琥珀色的光芒」。

可以看出,DLC的目标是捕捉区域的纹理、颜色、形状、显著部件等特征,同时也要保持与整体场景关联。

而在视频领域中,DLC挑战更大。

模型需要追目标区域在多个帧中的变化,描述其外观、交互、和细微动态的演变。

为了应对DLC复杂需求,Describe Anything Model引入了两大核心创新,让局部细节与全局上下文完美平衡。

焦点提示(Focal Prompt)

通过「焦点提示」机制,DAM能够同时处理全图和目标区域的放大视图。

这确保它在捕捉细微特征同时,不丢失整体场景的背景信息。

局部视觉骨干网络(Localized Vision Backbone)

DAM的视觉骨干网络通过空间对齐的图像和掩码,融合全局与局部特征。

利用门控交叉注意力层,模型将详细的局部线索与全局上下文无缝整合。

新参数初始化为0,保留了预训练能力,从而生成更丰富、更具上下文关联的描述。

这种架构让DAM在生成关键词、短语,甚至是多句式的复杂描述时,都能保持高精度和连贯性。

DLC-SDP:破解数据瓶颈

要知道,高质量的DLC数据集极为稀缺,限制了模型的训练。为此,研究团队设计了基于半监督学习的流水线(DLC-SDP),通过两阶段策略构建大规模训练数据。

阶段一,是从分割数据集扩展。利用现有分割数据集短标签(猫),通过视觉-语言模型生成丰富的描述(灰色短毛猫,耳朵直立。

阶段二,自训练未标记的图像,通过半监督学习,DAM对未标记的网络图像生成初始描述,并迭代精炼,形成高质量的DLC数据。

DLC-Bench:重定义评估标准

那么,如何公平地评估DLC模型。

传统方法主要依赖文本重叠,但这无法全面反映描述的准确性和细节。

为此,研究团队提出了全新基准DLC-Bench。通过LLM判断,检查描述的正确细节和错误缺失,而非简单对比文本。

DAM仅能生成详细描述,还具备强大的灵活性和交互性。

指令控制描述

你可以根据需求调整描述的详细程度和风格。

零样本区域问答

而且,无需额外训练,DAM就能回答关于特定区域的问题。

碾压GPT-4o,刷新SOTA

在DLC-Bench和其他7个涵盖图像与视频的基准测试中,DAM全面超越现有模型,树立了新的标杆。

如下表2所示,DAM在具有挑战性的 PACO 基准测试中表现出色,创下了89高分。

而在零样本评估在短语级数据集Flickr30k Entities上,新模型相比之前的最佳结果平均相对提升了7.34%。

此外,零样本评估在详细描述数据Ref-L4 上,DAM在基于短/长语言的描述指标上分别实现了39.5%和13.1%的平均相对提升。

在研究人员提出的DLC-Bench测试中,DAM在详细局部描述方面优于之前的仅API模型、开源模型和特定区域VLM。

下表6所示,DAM在详细局部视频字幕方面刷新SOTA。

总而言之,DAM的优势主要有三大点:更详细、更准确;更少幻觉;多场景适用。

它的强大能力为众多应用场景打开了大门,未来诸如数据标注、医疗影像、内容创作等领域,都可以加速落地。

作者介绍

Long (Tony) Lian

Long (Tony) Lian目前是UC伯克利电子工程与计算机科学博士研究生,师从Adam Yala教授和Trevor Darrell教授。

他的研究主要聚焦于,通过强化学习(RL)开发具备推理能力的大模型(LLM)与视觉语言模型(VLM)。

此前,他曾在英伟达研究院Deep Imagination Research团队实习。

Long (Tony) Lian本科毕业于UC伯克利计算机科学专业,师从Stella Yu教授。

参考资料:

https://x.com/YinCuiCV/status/1915054443734986912

https://describe-anything.github.io/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
曝东契奇腿筋伤势并无大碍!明日大概率缺战勇士 专家预测歇1-2周

曝东契奇腿筋伤势并无大碍!明日大概率缺战勇士 专家预测歇1-2周

罗说NBA
2026-02-07 05:18:13
斯诺克中国包揽4强:赵心童vs肖国栋!不出意外,以下2人会师决赛

斯诺克中国包揽4强:赵心童vs肖国栋!不出意外,以下2人会师决赛

小火箭爱体育
2026-02-06 23:53:28
这跟不穿有啥区别?微博之夜女星一个比一个“敢露”,数她最大胆

这跟不穿有啥区别?微博之夜女星一个比一个“敢露”,数她最大胆

圆梦的小老头
2026-02-06 21:34:25
牢A的镰刀有点狠啊

牢A的镰刀有点狠啊

历史总在押韵
2026-02-04 23:26:34
越南选美皇后坠落红尘:600万越盾/次,赚快钱儿,当场被警方抓获

越南选美皇后坠落红尘:600万越盾/次,赚快钱儿,当场被警方抓获

越南语学习平台
2026-02-06 09:45:08
美国十大领域全球领跑,差距还在拉大,正视实力才是真清醒!

美国十大领域全球领跑,差距还在拉大,正视实力才是真清醒!

保德全
2026-02-03 19:30:03
放进冰箱变毒药,这7种食物千万不能放在冰箱里!尤其是第六种!

放进冰箱变毒药,这7种食物千万不能放在冰箱里!尤其是第六种!

路医生健康科普
2026-02-06 16:16:28
快手色情直播刷屏,终领1.2亿罚单

快手色情直播刷屏,终领1.2亿罚单

财视传播
2026-02-06 17:41:31
春节进入倒计时,社会上却出现5个“反常现象”,跟往年大不相同

春节进入倒计时,社会上却出现5个“反常现象”,跟往年大不相同

平说财经
2026-02-06 23:54:22
台湾省人均GDP逼近4万美元,却找不到幸福感

台湾省人均GDP逼近4万美元,却找不到幸福感

比尔盖凯
2026-02-06 19:34:16
时下我国庞大失业大军都去哪里了?主要有6个去处,你认同吗?

时下我国庞大失业大军都去哪里了?主要有6个去处,你认同吗?

慧翔百科
2026-02-05 10:05:22
燃气灶致癌!斯坦福研究:在家做一顿饭,等于吸20分钟汽车尾气

燃气灶致癌!斯坦福研究:在家做一顿饭,等于吸20分钟汽车尾气

39健康网
2026-02-06 20:31:00
马斯克预测世界大战时间,大战最可能爆发在两地区

马斯克预测世界大战时间,大战最可能爆发在两地区

妙知
2025-12-29 00:08:32
王阳明:摆脱精神内耗最好的方法,不是运动、独处,而是......

王阳明:摆脱精神内耗最好的方法,不是运动、独处,而是......

诗词中国
2026-02-01 19:42:22
老天吶,差点没认出来。 电视上看着一般般,真人巨帅啊!

老天吶,差点没认出来。 电视上看着一般般,真人巨帅啊!

陈意小可爱
2026-02-06 08:13:28
高铁飞机大巴集体遇冷,绿皮火车为何成春运香饽饽?答案很现实

高铁飞机大巴集体遇冷,绿皮火车为何成春运香饽饽?答案很现实

复转这些年
2026-02-06 20:47:12
日本专家颠覆认知:想健康就不要跑步!?

日本专家颠覆认知:想健康就不要跑步!?

马拉松跑步健身
2026-02-03 06:30:10
血管堵塞不要怕,这杯水天天喝,冲走血管垃圾!

血管堵塞不要怕,这杯水天天喝,冲走血管垃圾!

孟大夫之家1
2026-01-21 12:34:23
家长晒女儿被世界名校录取,QS排名超清北,被嘲比申请QQ号还容易

家长晒女儿被世界名校录取,QS排名超清北,被嘲比申请QQ号还容易

妍妍教育日记
2026-02-05 21:16:43
亚洲杯淘汰赛:向鹏、张本智和同区;王艺迪对阵王曼昱

亚洲杯淘汰赛:向鹏、张本智和同区;王艺迪对阵王曼昱

懂球帝
2026-02-06 22:24:06
2026-02-07 06:16:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14490文章数 66593关注度
往期回顾 全部

科技要闻

独角兽版图巨变:SpaceX奔万亿 中美差在哪

头条要闻

电动车行业"老三"冲刺上市 分股东2亿克扣员工社保3亿

头条要闻

电动车行业"老三"冲刺上市 分股东2亿克扣员工社保3亿

体育要闻

西甲射手榜第2,身价不到姆巴佩1/40

娱乐要闻

微博之夜抢C风波 杨幂工作室9字讨说法

财经要闻

爱尔眼科董事长旗下7家精神病院骗保

汽车要闻

宝马"本命年"关键词:20款新车与"新世代"耐力赛

态度原创

亲子
教育
数码
家居
旅游

亲子要闻

弥勒融媒2026年寒假研学记,10天系统教学+实景实战

教育要闻

高考服务处所别错过!3类关键功能解析

数码要闻

零刻SER10 Max迷你主机上市:AI 9 HX 470,0+0款4499元

家居要闻

现代轻奢 温馨治愈系

旅游要闻

琅琊古城·“文旅迎春 马跃新程”2026河东文旅新春联欢晚会举行

无障碍浏览 进入关怀版