网易首页 > 网易号 > 正文 申请入驻

看图说话+作画二合一!开源方法VARGPT踏步而来

0
分享至

近日北大一研究团队提出了VARGPT,这是一种新颖的多模态大型语言模型(MLLM),它在单一的自回归框架内统一了视觉理解和生成。VARGPT采用下一个标记预测范式进行视觉理解,以及下一个尺度预测范式进行视觉自回归生成。VARGPT创新性地扩展了LLaVA架构,在MLLMs中实现了高效的尺度自回归视觉生成,同时在一个模型框架内无缝适应混合模态的输入和输出。(链接在文章底部)

尽管VARGPT基于LLAVA架构进行多模态理解,但在各种以视觉为中心的基准测试中,如视觉问答和推理任务,VARGPT显著优于LLaVA-1.5。同时,VARGPT自然支持自回归视觉生成和指令到图像合成的能力,展示了其在视觉理解和生成任务中的多功能性。

01 技术原理

VARGPT框架包括:(1)用于视觉理解的大型语言模型、视觉编码器和理解投影器;(2)用于视觉生成的视觉解码器和双重生成投影器。VARGPT在LLM骨干网络中采用因果注意力机制,同时在视觉解码器中利用块因果注意力机制。

VARGPT在特别设计的数据集上经历了三阶段的统一训练过程,包括预训练阶段和两个混合视觉指令调优阶段。统一训练策略旨在实现视觉和文本特征的对齐,增强理解和生成的指令跟随能力,并分别提高视觉生成质量。

VARGPT构建和收集的数据分布,包括:(a)三个阶段训练数据的比例分布;以及(b)第二阶段指令微调阶段使用的混合指令数据分布。用于第二阶段训练的复合数据集来自LLaVA-1.5、LLaVA-OneVision和ImageNet-Instruct-130K。

02 演示效果与对比

对多种多模态大语言模型(MLLMs)在多个视觉理解和生成基准测试中的表现进行了比较分析。其中,CLIP分数被用作文本到图像视觉生成的评估指标,而其余指标则来自标准的视觉问答基准测试和多模态理解基准测试。

VARGPT模型在所有理解基准测试中均显著优于对比基线模型。此外,它在指令到图像生成任务中表现出色,从而增强了其在各种视觉-语言任务中的多功能性和适用性。

VARGPT支持用户输入文本和图像指令,并同时输出文本和图像混合模态数据。VARGPT在理解方面效果优于LLaVa-v1.5-7B。

https://arxiv.org/pdf/2501.12327
https://github.com/VARGPT-family/VARGPT

欢迎交流~,带你学习AI,了解AI

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
德国专家:很多国家都侵略过中国,为何中国对日本人的仇恨最深?

德国专家:很多国家都侵略过中国,为何中国对日本人的仇恨最深?

真的好爱你
2026-05-23 01:46:30
弃将都打进了分区决赛!联盟最烂管理层,助尼克斯、马刺完成崛起

弃将都打进了分区决赛!联盟最烂管理层,助尼克斯、马刺完成崛起

你的篮球频道
2026-05-26 12:58:59
文某某虐童已被执行死刑,最高法:践踏人伦底线、手段极其恶劣

文某某虐童已被执行死刑,最高法:践踏人伦底线、手段极其恶劣

新京报
2026-05-26 17:20:32
被央媒怒批,目不识丁,脑袋空空,这5位“绝望的文盲”凭啥走红

被央媒怒批,目不识丁,脑袋空空,这5位“绝望的文盲”凭啥走红

荣亭小吏
2026-05-26 13:16:50
俄罗斯最大的弊病就是舍不得放下远东!一旦放下,甚至能满血复活

俄罗斯最大的弊病就是舍不得放下远东!一旦放下,甚至能满血复活

抽象派大师
2026-05-25 16:41:16
你以为很干净,其实“非常脏”的7个行为,很多人都中招了!

你以为很干净,其实“非常脏”的7个行为,很多人都中招了!

Home范
2026-04-28 11:26:32
婴儿哭了30万年,终于有人听懂

婴儿哭了30万年,终于有人听懂

碳基打工人
2026-05-18 01:39:40
元朝给中国带来了什么?若没有元朝,中国将变成另一个分裂的欧洲

元朝给中国带来了什么?若没有元朝,中国将变成另一个分裂的欧洲

鹤羽说个事
2026-05-26 22:59:11
市场疯传的报告,AI算力机会重大转移!

市场疯传的报告,AI算力机会重大转移!

君临财富
2026-05-26 00:28:31
美债稳如泰山:1/3利息付给了白宫,财政收入增速远快于债务累积

美债稳如泰山:1/3利息付给了白宫,财政收入增速远快于债务累积

子业一说财经
2026-05-26 09:53:31
李泽楷新欢曝光!47岁恋上女律师,气场碾压前任梁洛施

李泽楷新欢曝光!47岁恋上女律师,气场碾压前任梁洛施

可乐谈情感
2026-05-24 12:26:54
古德温:我们有7-8个球员非常优秀 突发情况不影响化学反应

古德温:我们有7-8个球员非常优秀 突发情况不影响化学反应

狼叔评论
2026-05-26 23:02:22
中国反超,日本再降一位

中国反超,日本再降一位

观察者网
2026-05-26 14:29:40
孙千凭什么被封 “地表最强 172”?数据告诉你什么叫老天爷赏饭吃!

孙千凭什么被封 “地表最强 172”?数据告诉你什么叫老天爷赏饭吃!

喜欢历史的阿繁
2026-05-26 09:27:19
无能狂怒:查尔斯国王再送夏洛特“珠宝”,梅根下一步怎么应对?

无能狂怒:查尔斯国王再送夏洛特“珠宝”,梅根下一步怎么应对?

陈意小可爱
2026-05-26 19:30:38
霍家千金,主动放弃继承巨额遗产,24年后老管家道出其中原因

霍家千金,主动放弃继承巨额遗产,24年后老管家道出其中原因

莱克
2025-12-11 11:00:16
伊朗总统下令恢复国际互联网接入

伊朗总统下令恢复国际互联网接入

澎湃新闻
2026-05-26 03:34:09
曾花费1亿请赵本山代言,成本2毛骗农民200亿,创始人至今没出狱

曾花费1亿请赵本山代言,成本2毛骗农民200亿,创始人至今没出狱

杰丝聊古今
2026-05-02 11:15:08
咱们的治安水平,在蓝星上来说,其实是不正常的

咱们的治安水平,在蓝星上来说,其实是不正常的

占理儿
2026-05-25 20:10:03
三星显示为法拉利Luce独供四块屏幕,业界首创多层OLED结构

三星显示为法拉利Luce独供四块屏幕,业界首创多层OLED结构

IT之家
2026-05-26 16:21:09
2026-05-27 01:04:49
带你学AI
带你学AI
分享最前沿AI知识,先进的AI工具
379文章数 8关注度
往期回顾 全部

科技要闻

中国AI要向外卷,而不只是做第二个OpenAI

头条要闻

留神峪逃生矿工在宿舍不肯离开:拿到被拖欠的工资再走

头条要闻

留神峪逃生矿工在宿舍不肯离开:拿到被拖欠的工资再走

体育要闻

上赛季差点降入英甲,下赛季要踢英超了

娱乐要闻

台媒贴脸!S妈被问大S嗑药当场沉默

财经要闻

中国铝行业爆单 下一个“煤炭”大周期?

汽车要闻

涉水加强 福特烈马亚马逊限量版上市 售价39.98万

态度原创

亲子
旅游
艺术
游戏
公开课

亲子要闻

孩子咳嗽气管炎,可以选择这几个穴位针灸治疗

旅游要闻

第二艘国产大型邮轮即将启航:解锁中国人的海上旅居新范式!

艺术要闻

gmp新作:上海张江模力社区

猎魂世界:千仞雪/王秋儿售后盘点!售后是越多越好还是越少越好

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版