网易首页 > 网易号 > 正文 申请入驻

密歇根大学团队打造多模态大模型,能用于可穿戴设备和具身AI智能体

0
分享至

近期,大语言模型(Large Language Models,LLMs)已经在理解和生成自然语言上取得了空前的成功。

但是,人类依靠自己的大脑不仅仅可以读写文字,还可以看图、看视频、听音乐等。

所以,为了让 AI 更接近真实世界,将额外的模态比如图像输入,融入大语言模型从而打造多模态大模型(MLLMs,Multi-modal LLMs),被认为是 AI 发展的一个关键新领域。

相比纯文本数据,多模态数据更加难以获取,而从零开始直接训练多模态模型也比较困难。

因此,目前的主流方法是基于预训练好的大语言模型,为其配备一个视觉感知模块,来获取多模态感知能力。典型的该类模型有 Flamingo、BLIP、LLaVA、MiniGPT4 等。

这些模型可以处理图片输入,根据用户的问题生成相应的文本回复。

然而,研究发现尽管这些模型表现出不错的多模态理解能力,但是存在严重的视觉幻觉问题。

具体表现为:幻想图片中不存在的物体、回答中对图片内容的描述与事实严重不符等。

该问题的本质其实是:现有模型在细粒度文本图像匹配能力上存在缺失。

近期,Kosmos、Shikra 和 Ferret 等模型,将 Grounding 能力引入了 MLLM(即 Grounding MLLM)。

它指的是当模型在输出文本时,可以同时输出名词短语所对应物体的边界框坐标,以表示该物体在图片中的位置。

实验结果证明,此类模型具备更可靠的性能,能显著减少视觉幻觉的发生。

此外,由于模型可以更全面地呈现输出文本和文本所指物体在图片中的位置关系,因此可以给用户提供信息量更多、也更容易理解的内容输出。

然而,目前基于边界框的 Grounded MLLM 模型仍然存在几个问题:

首先,受限于长方形物体边界框的表达能力,现有模型无法进行更精细的文本实体定位。

例如,当文本所指物体是不规则的背景形状(如天空、树林)时,或者和其他物体有部分重叠或位置交错等,边界框无法准确表达所表示物体的位置,以至于容易产生歧义。

其次,受限于模型训练数据的多样性,现有模型仅限于指代单个物体,而很难生成物体局部区域、多个物体组成的整体、以及图片中文本的指代。

最后,现有模型是基于图像的隐式特征,来直接预测物体的边界框坐标。

而这一过程并不透明,当出现物体指代错误时,很难诊断问题是出在检测上——即没有成功检测到目标物体,还是出在识别上——即成功检测到物体但是识别错误。

图 | GROUNDHOG 支持的任务示例(来源:arXiv)

针对这些问题,美国密歇根大学博士生张亦弛和所在团队提出了 GROUNDHOG,这是一个可以支持大型语言模型与视觉实体进行像素级语义对齐的 Grounded MLLM 模型。

图 | 张亦弛(来源:张亦弛)

对于已有的 MLLM 模型来说,其采用输入 patch-level 视觉特征后直接输出定位坐标的黑盒架构。

而 GROUNDHOG 的关键思想是将 Language Grounding(语言接地)解藕成两个阶段:定位和识别。

在定位阶段:

首先,由一个可以提出各种不同实体区域分割的专家模型,提供图像中所有实体的分割。

然后,通过一个掩码特征提取器,提取每个实体的视觉特征,以此作为多模态语言模型的输入。

在识别阶段:

当大语言模型解码出可进行视觉锚定的短语时,就会从输入的所有实体中,选择相应的实体分割进行融合,借此得到文本对应的视觉分割区域。

这种分离的设计不仅允许独立优化实体分割模型和多模态语言模型,还提高了错误分析的可解释性,并允许 MLLM 与多种视觉专家模型灵活结合,从而提高整体性能。

图 | GROUNDHOG 架构(来源:arXiv)

此外,GROUNDHOG 的这种设计模式可以自然拓展到区域级的图像理解任务,能够灵活地接受任何图像中的位置和区域指代方式来作为输入。

另据悉,不同于 GPT4ROI、Ferret 等现有模型需要引入额外的 spatial prompt encoder,GROUNDHOG 可以直接和 SAM(Segment Anything)等预训练专家模型结合,从而处理位置的指代输入,进而极大拓展应用场景。

图 | 与 SAM 无缝衔接处理各种形式的位置提示输入(来源:arXiv)

据了解,为了训练 GROUNDHOG,课题组整合了 27 个现有数据集的 2.5M 文本-图像对,并进行了衍生和增强。

通过此,他们组成一个名为 M3G2 的新数据集,以便用于学习多模态多粒度的视觉文本对齐能力。

M3G2 包括图文锚定描述、指代物体分割、图文锚定问答、视觉指代对话 4 大类任务,涵盖 36 种子任务,具备丰富的视觉文本对齐标注能力。

图 | M3G2 数据集的 4 种任务示例及数据统计(来源:arXiv)

通过相关实验,该团队证明 GROUNDHOG 在各种视觉文本对齐任务上,都能达到很好的性能,且无需针对特定任务进行微调。

此外,GROUNDHOG 能显著减少视觉幻觉现象的出现,并在失败案例中提供了易于理解的诊断信息,为需要精确视觉理解和自然语言处理的领域的发展奠定了一定基础。

(来源:arXiv)

GROUNDHOG 模型的一个典型应用场景,便是在可穿戴设备中,推动多模态 AI 助手的发展。

试想这样一个情境:当顾客佩戴智能眼镜在商场购物时,对着某个品牌的商品询问 AI 助手:“这个商品好吗,有更好评价的吗?”

AI 助手不仅能精确地识别顾客所指商品并能提供相关评价信息,还能智能推荐货架上其他评价更高的商品。

以及能在眼镜屏幕上通过增强现实技术,高亮地显示这些商品,便于顾客查找和比较。

在顾客与多模态 AI 助手的互动中,这种结合视线追踪理解用户意图的能力,加上视觉锚定增强输出文本的效果,不仅可以提升交互的自然性,也能极大增强用户体验。

“也就是说,GROUNDHOG 模型正是在这两个关键能力上表现出色,从而能为推动下一代多模态 AI 助手的革新奠定基础。”研究人员表示。

GROUNDHOG 的另一个应用前景,在于能够驱动具身 AI 智能体。

比如,可以设计一个网络浏览机器人,它通过接收网页截图和用户意图描述作为输入,并输出相应的鼠标操作或键盘操作。

在这个场景中,点击网页元素——可被视作结合输出文本(动作)和网页交互元素位置的交互行为。

比如,智能体输出的动作为“点击‘提交’按钮”,然后识别并定位到截图中的“提交”按钮,并执行实际的点击操作。

研究人员表示:“GROUNDHOG 所提供的 Grounding 能力在这种视觉语言理解与动作执行相结合的应用场景中至关重要,进一步拓宽了多模态语言模型在用于 AI 智能体决策中的应用范围。”

事实上,该团队最开始的研究动机是因为观察到了多模态大语言模型中普遍存在的视觉幻觉现象,希望探索缓解这个问题的解决方案。

经过深入思考之后,他们认为幻觉现象出现的根源还是在于模型视觉文本对齐能力的缺失。

而现有模型由于架构上的限制,很难支持精细的像素级文本对齐。

由此便想到:为何不打造一款新模型去解决这个问题呢?

于是研究重心就从缓解视觉幻觉转移到开发一款具备较强像素级视觉文本对齐能力的模型。

幸运的是,当他们的架构能够运营之后,该团队在实验中发现确实极大缓解了大模型的视觉幻觉问题,因此也算完成了他们的初衷。

与此同时,在确定研究问题之后,很快他们就发现了现有模型存在可解释性较差的问题,于是便确定了“先定位后识别”的主要框架。

随后,课题组开始寻找具体的实体分割模型。期间遇到了一些困难:其希望这个实体分割模型可以提供语义丰富、粒度多样、高质量的实体分割图片标签。

然而,在已有的预训练分割模型中,要么只能给出有限的实体类别,要么无法很好地支持他们想要的多粒度分割。总之,并没有可以满足研究人员全部需求的模型。

因此,他们通过整合 COCO、LVIS、PACO、Entity-V2、TextOCR 等现有的分割数据集,基于一个修改后的 Mask2Former 架构自行训练了一个支持多样、全面分割的模型 Mask2Former+,以此作为他们的实体分割模型。

而在当时,另一个重要问题就是构建训练模型的数据集。

构建这种具备较为复杂的细粒度图像文本对齐标注的数据集一般有两种方式:要么通过重新整合现有数据集,要么通过现有的大模型对图像进行标注加工。

出于对任务丰富性和数据质量的考虑,他们选择了前者,并尽可能地收集了学术界已有的能够纳入本次任务框架的数据集。

随后,该团队通过 ChatGPT 生成了对话模板,将所有数据整合为了人机对话的形式。

最后,他们选择在视觉文本对齐任务中一些比较有代表性的 benchmark,对本次模型加以量化评测与分析。

日前,相关论文以《GROUNDHOG:将大型语言模型建立在整体分割的基础上》(GROUNDHOG:Grounding Large Language Models to Holistic Segmentation)为题发在 arXiv[1]。

图 | 相关论文(来源:arXiv)

关于上述数据集和本次模型的详细介绍,可以参考本次论文的附录。之后,他们也会将这部分数据处理和模型训练的代码一并公开。

后续,他们希望能将 GROUDHOG 拓展到第一视角视频,打造一个能够处理视频输入的 Grounded MLLM 个人助手。

参考资料:

1.https://arxiv.org/pdf/2402.16846

排版:初嘉实

01/ 清华校友开创辐射制冷新手段,研发新型透明超材料,利用微金字塔棱镜效应实现智能光线管理

02/ 剑桥团队制备新型神经袖套,实现最小侵入性外周神经接口,助力治疗神经疾病和假肢控制

03/ 多团队联合攻关设计量子效应掺杂范式,研发p型场效应晶体管,突破二维平面晶体管集成维度限制

04/ 复旦团队基于机器学习开发原子模拟方法,揭示新的化学活性位点,推动原子级别的化学设计

05/ 川大团队研发高达15结的垂直腔面激光器,实现74%电光转换率,打破该领域长达二十年效率停滞局面

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中药又立功!马齿苋能在48小时内杀死98%的癌细胞?医生说出实情

中药又立功!马齿苋能在48小时内杀死98%的癌细胞?医生说出实情

冷眼看世界728
2026-05-29 21:43:47
为富商连生3娃,住进北京别墅,远离春晚11年,如今她越活越潇洒

为富商连生3娃,住进北京别墅,远离春晚11年,如今她越活越潇洒

陈意小可爱
2026-05-31 16:59:23
一女子吃了“见手青”后连撞两车……“菌驾”按酒驾处罚吗?警方认真回复了!

一女子吃了“见手青”后连撞两车……“菌驾”按酒驾处罚吗?警方认真回复了!

新民周刊
2026-05-30 14:27:46
胖东来:重大失误,将停售

胖东来:重大失误,将停售

观察者网
2026-05-31 11:02:05
SGA:今晚我已倾尽所有,面对困难队友们没有气馁为他们感到骄傲

SGA:今晚我已倾尽所有,面对困难队友们没有气馁为他们感到骄傲

懂球帝
2026-05-31 12:37:16
6月“金股”出炉 这些股票被看好!

6月“金股”出炉 这些股票被看好!

中国经济网
2026-05-31 10:00:05
中美印负债金额对比:美36万亿,印160万亿,中国负债几何?

中美印负债金额对比:美36万亿,印160万亿,中国负债几何?

聚焦真实瞬间
2026-05-01 10:18:33
哈格里夫斯谈埃泽丢点:门将原地不动时,停顿动作会让你压力更大

哈格里夫斯谈埃泽丢点:门将原地不动时,停顿动作会让你压力更大

懂球帝
2026-05-31 04:08:09
独生女+父母有退休金,现实里的含金量,远比想象中更实在

独生女+父母有退休金,现实里的含金量,远比想象中更实在

三农老历
2026-05-30 19:44:20
技不如人?神二十一回家,我国航天员抬着出舱,美国的却活蹦乱跳

技不如人?神二十一回家,我国航天员抬着出舱,美国的却活蹦乱跳

小俎娱乐
2026-05-31 14:06:42
大批社区医院要变天!不再只看病,以后重点管健康

大批社区医院要变天!不再只看病,以后重点管健康

荷兰豆爱健康
2026-05-31 08:27:58
全固态电池装车!续航1000km成本1元/Wh,千万新能源车主成韭菜?

全固态电池装车!续航1000km成本1元/Wh,千万新能源车主成韭菜?

胖福的小木屋
2026-05-29 12:11:34
文班谈挺进总决赛:这是一生一次的机会,几乎是我生命的意义

文班谈挺进总决赛:这是一生一次的机会,几乎是我生命的意义

懂球帝
2026-05-31 13:20:12
马布里:中国球迷很喜欢要签名合影;看见外国人像看见外星人

马布里:中国球迷很喜欢要签名合影;看见外国人像看见外星人

懂球帝
2026-05-31 16:00:15
羽球决出2冠!国羽世界第1翻车输队友,安洗莹决胜局连得5分逆转

羽球决出2冠!国羽世界第1翻车输队友,安洗莹决胜局连得5分逆转

刘姚尧的文字城堡
2026-05-31 16:53:37
朱可夫晚年吐露实情:德军撤出莫斯科当晚,斯大林发布了一道密令

朱可夫晚年吐露实情:德军撤出莫斯科当晚,斯大林发布了一道密令

磊子讲史
2026-05-28 19:30:16
今年身边就藏着大贵人的3生肖:越到后面越顺利,越到年底越赚钱

今年身边就藏着大贵人的3生肖:越到后面越顺利,越到年底越赚钱

毅谈生肖
2026-05-31 14:29:09
55岁汪峰给所有男人提了个醒:可以老、可以胖,但穿衣打扮要注意

55岁汪峰给所有男人提了个醒:可以老、可以胖,但穿衣打扮要注意

寻墨阁
2026-05-31 12:49:15
卫冕冠军出局!法网女单赛场再爆冷门,高芙遭逆转无缘16强

卫冕冠军出局!法网女单赛场再爆冷门,高芙遭逆转无缘16强

全景体育V
2026-05-31 05:56:54
人民直击|三问张家口风电项目1.9亿“天价”补偿后续

人民直击|三问张家口风电项目1.9亿“天价”补偿后续

人民资讯
2026-05-31 09:15:09
2026-05-31 20:20:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16772文章数 514992关注度
往期回顾 全部

科技要闻

戴尔诺基亚又回来了!AI重估老牌科技公司

头条要闻

香会上中方全英文发问菲律宾 菲防长语无伦次答非所问

头条要闻

香会上中方全英文发问菲律宾 菲防长语无伦次答非所问

体育要闻

阿森纳用最悲壮的方式,成就了巴黎王朝

娱乐要闻

朱军退休,正义虽迟但到,女方受惩

财经要闻

医学首席转岗搞科技,A股科技股遭遇巨震

汽车要闻

900V+3.2秒破百 领克10+&领克10上市16.99万元起

态度原创

健康
家居
亲子
房产
公开课

尝试干细胞疗法如何避免踩坑?

家居要闻

云栖 舒展如流云

亲子要闻

2026年提高免疫力婴幼儿奶粉:免疫配方成分临床验证深度解析

房产要闻

红动五月!全国抢入核心资产,广州盯紧凯旋新世界!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版