网易首页 > 网易号 > 正文 申请入驻

复旦等发布AnyGPT:任意模态输入输出,图像、文本、语音都支持

0
分享至

机器之心报道

机器之心编辑部

最近,OpenAI 的视频生成模型 Sora 爆火,生成式 AI 模型在多模态方面的能力再次引起广泛关注。

现实世界本质上是多模态的,生物体通过不同的渠道感知和交换信息,包括视觉、语言、声音和触觉。开发多模态系统的一个有望方向是增强 LLM 的多模态感知能力,主要涉及多模态编码器与语言模型的集成,从而使其能够跨各种模态处理信息,并利用 LLM 的文本处理能力来产生连贯的响应。

然而,该策略仅限于文本生成,不包含多模态输出。一些开创性工作通过在语言模型中实现多模态理解和生成取得了重大进展,但这些模型仅包含单一的非文本模态,例如图像或音频。

为了解决上述问题,复旦大学邱锡鹏团队联合 Multimodal Art Projection(MAP)、上海人工智能实验室的研究者提出了一种名为 AnyGPT 的多模态语言模型,该模型能够以任意的模态组合来理解和推理各种模态的内容。具体来说,AnyGPT 可以理解文本、语音、图像、音乐等多种模态交织的指令,并能熟练地选择合适的多模态组合进行响应。

例如给出一段语音 prompt,AnyGPT 能够生成语音、图像、音乐形式的综合响应:

给出文本 + 图像形式的 prompt,AnyGPT 能够按照 prompt 要求生成音乐:

  • 论文地址:https://arxiv.org/pdf/2402.12226.pdf
  • 项目主页:https://junzhan2000.github.io/AnyGPT.github.io/

方法简介

AnyGPT 利用离散表征来统一处理各种模态,包括语音、文本、图像和音乐。

为了完成任意模态到任意模态的生成任务,该研究提出了一个可以统一训练的综合框架。如下图 1 所示,该框架由三个主要组件组成,包括:

  • 多模态 tokenizer
  • 作为主干网络的多模态语言模型
  • 多模态 de-tokenizer

其中,tokenizer 将连续的非文本模态转换为离散的 token,随后将其排列成多模态交错序列。然后,语言模型使用下一个 token 预测训练目标进行训练。在推理过程中,多模态 token 被相关的 de-tokenizer 解码回其原始表征。为了丰富生成的质量,可以部署多模态增强模块来对生成的结果进行后处理,包括语音克隆或图像超分辨率等应用。

AnyGPT 可以稳定地训练,无需对当前的大型语言模型(LLM)架构或训练范式进行任何改变。相反,它完全依赖于数据级预处理,使得新模态无缝集成到 LLM 中,类似于添加新语言。

这项研究的一个关键挑战是缺乏多模态交错指令跟踪数据。为了完成多模态对齐预训练,研究团队利用生成模型合成了第一个大规模「任意对任意」多模态指令数据集 ——AnyInstruct-108k。它由 108k 多轮对话样本组成,这些对话错综复杂地交织着各种模态,从而使模型能够处理多模态输入和输出的任意组合。

这些数据通常需要大量比特才能准确表征,从而导致序列较长,这对语言模型的要求特别高,因为计算复杂度随着序列长度呈指数级增加。为了解决这个问题,该研究采用了两阶段的高保真生成框架,包括语义信息建模和感知信息建模。首先,语言模型的任务是生成在语义层面经过融合和对齐的内容。然后,非自回归模型在感知层面将多模态语义 token 转换为高保真多模态内容,在性能和效率之间取得平衡。

实验

实验结果表明,AnyGPT 能够完成任意模态对任意模态的对话任务,同时在所有模态中实现与专用模型相当的性能,证明离散表征可以有效且方便地统一语言模型中的多种模态。

该研究评估了预训练基础 AnyGPT 的基本功能,涵盖所有模态的多模态理解和生成任务。该评估旨在测试预训练过程中不同模态之间的一致性,具体来说是测试了每种模态的 text-to-X 和 X-to-text 任务,其中 X 分别是图像、音乐和语音。

为了模拟真实场景,所有评估均以零样本模式进行。这意味着 AnyGPT 在评估过程中不会对下游训练样本进行微调或预训练。这种具有挑战性的评估设置要求模型泛化到未知的测试分布。

评估结果表明,AnyGPT 作为一种通用的多模态语言模型,在各种多模态理解和生成任务上取得了令人称赞的性能。

图像

该研究评估了 AnyGPT 在图像描述任务上的图像理解能力,结果如表 2 所示。

文本到图像生成任务的结果如表 3 所示。

语音

该研究通过计算 LibriSpeech 数据集的测试子集上的词错误率 (WER) 来评估 AnyGPT 在自动语音识别 (ASR) 任务上的性能,并使用 Wav2vec 2.0 和 Whisper Large V2 作为基线,评估结果如表 5 所示。

音乐

该研究在 MusicCaps 基准上评估了 AnyGPT 在音乐理解和生成任务方面的表现,采用 CLAP_score 分数作为客观指标,衡量生成的音乐和文本描述之间的相似度,评估结果如表 6 所示。

感兴趣的读者可以阅读论文原文,了解更多研究内容。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
高盛CEO所罗门谈人工智能:当前市场贪婪多于恐慌

高盛CEO所罗门谈人工智能:当前市场贪婪多于恐慌

IT之家
2026-06-03 10:57:44
“摸奶子”再惹争议,OPPO的流量反噬开始了

“摸奶子”再惹争议,OPPO的流量反噬开始了

品牌头版
2026-05-13 10:18:15
71年周总理质问乔冠华:我当着大家的面问你,你为什么给我送礼?

71年周总理质问乔冠华:我当着大家的面问你,你为什么给我送礼?

凉州辞
2026-06-03 16:30:03
摊牌了?陈妍希亮出亲子合照,孩子外貌引热议,陈晓表现暗藏深意

摊牌了?陈妍希亮出亲子合照,孩子外貌引热议,陈晓表现暗藏深意

动物奇奇怪怪
2026-06-03 16:50:06
新加坡队长哈伦:下场对阵中国会更加艰难,我们需要提升状态

新加坡队长哈伦:下场对阵中国会更加艰难,我们需要提升状态

懂球帝
2026-06-03 10:35:14
iPhone17销量再破纪录!国产手机疯狂内卷,为何用户仍选苹果?

iPhone17销量再破纪录!国产手机疯狂内卷,为何用户仍选苹果?

小柱解说游戏
2026-06-02 00:24:51
上海瑞金研究:低密度胆固醇越低,癌症风险越高?控制到多少才好

上海瑞金研究:低密度胆固醇越低,癌症风险越高?控制到多少才好

健康科普365
2026-06-01 19:35:05
香会结束,中方少将登机回国,菲日代表团临走前,把脸丢了个精光

香会结束,中方少将登机回国,菲日代表团临走前,把脸丢了个精光

小蒋爱唠嗑
2026-06-03 01:57:16
女子哭诉新房被公婆住,老公不理解,网友一边倒:把90万还给公婆

女子哭诉新房被公婆住,老公不理解,网友一边倒:把90万还给公婆

奇思妙想草叶君
2026-06-02 13:58:51
放不下的顿巴斯,回不去的体面

放不下的顿巴斯,回不去的体面

秋月独朗
2026-06-03 14:14:30
太意外!社保一季度突然“抛弃”科技主线,悄悄重仓3大冷门赛道

太意外!社保一季度突然“抛弃”科技主线,悄悄重仓3大冷门赛道

时光在作祟
2026-06-03 11:38:21
王皓最新爆料:梁靖崑打张本智和之前,我在房间里问了他3个问题

王皓最新爆料:梁靖崑打张本智和之前,我在房间里问了他3个问题

等等talk
2026-06-03 11:13:26
发现一个奇怪现象:当看到一个女人手上没有手镯,脖子上没有项链,能确定她在这3个方面是非常“特别”的人......

发现一个奇怪现象:当看到一个女人手上没有手镯,脖子上没有项链,能确定她在这3个方面是非常“特别”的人......

背包旅行
2026-06-03 11:43:15
孙正义重登亚洲首富

孙正义重登亚洲首富

21世纪经济报道
2026-06-03 09:26:33
“碳水脸”引争议,网友:令人不适的网络词!

“碳水脸”引争议,网友:令人不适的网络词!

中国日报
2026-05-21 15:28:00
背叛中国、又出卖美国!臭名昭著的华裔双面间谍高瞻,下场如何?

背叛中国、又出卖美国!臭名昭著的华裔双面间谍高瞻,下场如何?

历史人文2
2026-06-02 06:30:03
华为“韬定律”又让国内的赢学家们自嗨起来

华为“韬定律”又让国内的赢学家们自嗨起来

廖保平
2026-06-01 12:30:02
《教父》早就讲透:男人真正吸引异性的,从来不是甜言蜜语,也不是吃喝玩乐,而是这两种底层能力

《教父》早就讲透:男人真正吸引异性的,从来不是甜言蜜语,也不是吃喝玩乐,而是这两种底层能力

心理观察局
2026-06-03 07:39:04
一场演唱会,戳穿谢霆锋在娱乐圈真实地位,王菲的话,有人信了

一场演唱会,戳穿谢霆锋在娱乐圈真实地位,王菲的话,有人信了

冷紫葉
2026-06-01 20:10:43
给他追封“民族英雄”,我不认同!

给他追封“民族英雄”,我不认同!

小豫讲故事
2026-06-02 06:00:29
2026-06-03 17:20:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13159文章数 142660关注度
往期回顾 全部

科技要闻

传DeepSeek融资意向500亿:腾讯投100亿

头条要闻

94版《三国演义》成观众心中"白月光" 多位扮演者离世

头条要闻

94版《三国演义》成观众心中"白月光" 多位扮演者离世

体育要闻

选择中国品牌的库里,和他们的巨大野心

娱乐要闻

官方痛批乱象 刘涛郑恺等艺人遭点名

财经要闻

AI,开始偷懒了?

汽车要闻

依托全域辅助驾驶布局 千里浩瀚助推吉利5月市场大热

态度原创

手机
游戏
健康
艺术
公开课

手机要闻

荣耀确认Robot Phone手机初代抗跌落已经是旗舰水平

《战舰世界》科幻联动最夯TOP3,错过任何一个都会失眠!

违规干细胞抗衰美容,为何肆无忌惮

艺术要闻

二十年前割麦的场景

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版