网易首页 > 网易号 > 正文 申请入驻

港大字节提出多模态大模型新范式,模拟人类先感知后认知

0
分享至

允中 发自 凹非寺
量子位 | 公众号 QbitAI

当前,多模态大模型(MLLM)在多项视觉任务上展现出了强大的认知理解能力。

然而大部分多模态大模型局限于单向的图像理解,难以将理解的内容映射回图像上。

比如,模型能轻易说出图中有哪些物体,但无法将物体在图中准确标识出来。

定位能力的缺失直接限制了多模态大模型在图像编辑,自动驾驶,机器人控制等下游领域的应用。

针对这一问题,港大和字节跳动商业化团队的研究人员提出了一种新范式Groma——

通过区域性图像编码来提升多模态大模型的感知定位能力。

在融入定位后,Groma可以将文本内容和图像区域直接关联起来,从而显著提升对话的交互性和指向性。

核心思路

如何赋予多模态大模型定位物体的能力,乃至于将文字内容和图像区域关联起来,做到“言之有物”,是当前一大研究热点。

常见的做法是微调大语言模型使其直接输出物体坐标。然而这种方法却有着诸多限制:

1、在文本上预训练的大语言模型本身不具备空间理解能力,仅依靠少量数据微调很难精准定位物体。

2、定位任务对输入图像的分辨率有较高要求,但提高分辨率会显著增加多模态大模型的计算量。

3、大语言模型的输出形式不适合处理精细的定位任务,比如分割。

基于这些考虑,Groma提出将定位转移到多模态大模型的vision tokenizer中,由vision tokenizer发现并定位潜在的物体,再交给大语言模型识别。

同时,这样的设计也充分利用了vision tokenizer本身的空间理解能力,而无需外接专家模型(比如SAM)来辅助定位,从而避免了外接模型的冗余。

具体而言,Groma在全局图像编码的基础上,引入了区域编码来实现定位功能——如下图所示,Groma先利用Region Proposer定位潜在的物体,再通过Region Encoder将定位到的区域逐一编码成region token。

而大语言模型则可以根据region token的语意判断其对应的区域,并通过在输出中插入region token来达成类似超链接的效果,实现visually grounded conversation。

同样地,用户指定的区域也可以通过Region Encoder编码成相应的region token,并插入到用户指令中,从而让多模态模型能关注到指定的区域并产生指向性的回答。

为了提升定位的鲁棒性和准确性,Groma采用了超过8M的数据(包括SA1B)来预训练Region Proposer。因此其产生的proposal不仅包括常见的物体,也涵盖了物体的组成部分以及更广阔的背景等要素。

此外,得益于分离式的设计,Groma可以采用高分辨率特征图用于Region Proposer/Encoder的输入,并采用低分辨率的特征图用于大模型输入,从而在降低计算量的同时又不损失定位性能。

实验结果

Groma在传统的Grounding Benchmarks上表现出了超越MiniGPT-v2和Qwen-VL的性能。

同时,Groma在多模态大模型通用的VQA Benchmark (LLaVA-COCO)验证了其对话和推理能力。

在可视化的对比中,Groma也表现出了更高的recall和更少的幻觉。

此外,Groma还支持融合对话能力和定位能力的referential dialogue以及grounded chat。

得益于大语言模型强大的认知推理能力,多模态大模型在视觉理解任务上表现突出。

然而一些传统的视觉任务,如检测分割、深度估计等,更多依赖视觉感知能力,这恰恰是大语言模型所缺乏的。

Groma在这个问题上提供了一种新的解决思路,即把感知和认知解耦开来,由vision tokenizer负责感知,大语言模型负责认知。

这种先感知后认知的形式除了更符合人类的视觉过程,也避免了重新训练大语言模型的计算开销。

5月15日,字节跳动刚刚公布了自研的豆包大模型,提供多模态能力,下游支持豆包APP、扣子、即梦等50+业务,并通过火山引擎开放给企业客户,助力企业提升效率、加速智能化创新。目前,豆包APP已成为中国市场用户量最大的AIGC应用。字节跳动正持续加大对顶尖人才和前沿技术的投入力度,参与行业顶尖的技术挑战和攻坚。

项目网站:
https://groma-mllm.github.io
论文链接:
https://arxiv.org/abs/2404.13013
开源代码:
https://github.com/FoundationVision/Groma

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
为何汉武帝开始喜欢卫子夫,后来却对她厌恶至极?答案其实不复杂

为何汉武帝开始喜欢卫子夫,后来却对她厌恶至极?答案其实不复杂

小豫讲故事
2026-05-02 16:34:54
火箭会同意吗?Sidery:杜约若想重返总决赛,可以试着在掘金联手

火箭会同意吗?Sidery:杜约若想重返总决赛,可以试着在掘金联手

移动挡拆
2026-05-04 23:57:39
海航推66666元“顺心卡”:可379元飞全国,余额要求严苛被指“变相无息融资”

海航推66666元“顺心卡”:可379元飞全国,余额要求严苛被指“变相无息融资”

红星资本局
2026-05-04 19:39:14
当成都模式席卷全国,为何只有粤、苏、鲁、浙、闽5省选择不跟?

当成都模式席卷全国,为何只有粤、苏、鲁、浙、闽5省选择不跟?

金卡读城
2026-05-04 07:45:56
互联网是有记忆的,她的黑历史一大堆啊!

互联网是有记忆的,她的黑历史一大堆啊!

BenSir本色说
2026-04-15 22:38:07
阿联酋竟和以色列结成血盟,各国都在为“后美国时代”做准备

阿联酋竟和以色列结成血盟,各国都在为“后美国时代”做准备

码头青年
2026-05-04 11:36:45
今日立夏,老话“立夏是晴天,寡妇要发愁”,晴天有啥预兆?

今日立夏,老话“立夏是晴天,寡妇要发愁”,晴天有啥预兆?

宝哥精彩赛事
2026-05-05 07:19:17
据说泰山球员打算对申花的比赛证明自己?那这比赛结果可别期待?

据说泰山球员打算对申花的比赛证明自己?那这比赛结果可别期待?

新新自圆其说说体育
2026-05-05 09:24:20
提醒:咖啡不单单是心血管杀手,常喝咖啡还容易患上3类疾病

提醒:咖啡不单单是心血管杀手,常喝咖啡还容易患上3类疾病

看世界的人
2026-05-03 09:46:49
“中年返贫三件套”,正在吞掉一代人的存款

“中年返贫三件套”,正在吞掉一代人的存款

十点读书
2026-04-18 18:36:15
烈火之后的清泉:那些让灵魂“高潮”后想喝水的技巧,太爽了

烈火之后的清泉:那些让灵魂“高潮”后想喝水的技巧,太爽了

精彩分享快乐
2026-04-23 07:20:03
为什么说 “我以后将只在周二网购”?网友:发现了幸福秘诀

为什么说 “我以后将只在周二网购”?网友:发现了幸福秘诀

中国日报
2026-05-03 19:03:24
女生主动起来有多黏人?网友:这些女的太开放了

女生主动起来有多黏人?网友:这些女的太开放了

带你感受人间冷暖
2026-01-27 00:20:06
卡拉格:如果阿森纳击败西汉姆联,他们就将赢得英超冠军

卡拉格:如果阿森纳击败西汉姆联,他们就将赢得英超冠军

懂球帝
2026-05-05 09:36:24
73岁迟重瑞近况:卖故宫旁自家房子,均价15万,陈丽华嫁他好福气

73岁迟重瑞近况:卖故宫旁自家房子,均价15万,陈丽华嫁他好福气

一娱三分地
2026-02-19 17:04:30
北京亿万富豪连捅妻子13刀后自杀,留下遗书:最毒不过妇人心

北京亿万富豪连捅妻子13刀后自杀,留下遗书:最毒不过妇人心

灿烂夏天
2024-10-21 22:58:02
浏阳烟花爆竹企业爆炸事故已致3人死亡,25人受伤;涉事企业成立26年,周边居民称600米外玻璃被震碎

浏阳烟花爆竹企业爆炸事故已致3人死亡,25人受伤;涉事企业成立26年,周边居民称600米外玻璃被震碎

大风新闻
2026-05-04 22:05:03
两性关系:55-65岁这十年,惜命最好的方式,不是锻炼,做好这6点

两性关系:55-65岁这十年,惜命最好的方式,不是锻炼,做好这6点

三农老历
2026-04-13 17:10:06
尴尬!央视拍人物短剧被张雪本人吐槽,“我没有这么老吧”引争议

尴尬!央视拍人物短剧被张雪本人吐槽,“我没有这么老吧”引争议

火山詩话
2026-05-05 05:39:56
婆婆:儿媳,我吃榨菜,你花2百买榴莲?“花钱我乐意,怎么了”

婆婆:儿媳,我吃榨菜,你花2百买榴莲?“花钱我乐意,怎么了”

清水家庭故事
2026-05-05 09:28:09
2026-05-05 10:11:00
量子位 incentive-icons
量子位
追踪人工智能动态
12573文章数 176461关注度
往期回顾 全部

科技要闻

OpenAI/Anthropic同日被曝拉拢华尔街建合资公司

头条要闻

牛弹琴:中东又出大事 最倒霉的是三个国家

头条要闻

牛弹琴:中东又出大事 最倒霉的是三个国家

体育要闻

骑士破猛龙:加雷特·阿伦的活力

娱乐要闻

张敬轩还是站上了英皇25周年舞台

财经要闻

五一假期,中国年轻人的“首尔病”犯了

汽车要闻

同比大涨190% 方程豹4月销量29138台

态度原创

游戏
时尚
手机
公开课
军事航空

美顶级银行称《GTA6》该卖80美元!带动世界游戏提价

参观了设计师花7年打磨的家,太开眼了!

手机要闻

苹果iOS 27支持创建自定义钱包通行证,电影票、健身卡都能添加

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

特朗普回绝伊朗新方案

无障碍浏览 进入关怀版