网易首页 > 网易号 > 正文 申请入驻

跨模态通信总丢失语义、产生歧义?LAM-MSC实现四模态统一高效传输

0
分享至

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

本文的作者为湖南师范大学的江沸菠副教授,彭于波博士,湖南工商大学的董莉副教授,英国布鲁内尔伦敦大学的王可之教授,南京大学的杨鲲教授(欧洲科学院院士),东南大学的潘存华教授、尤肖虎教授(中国科学院院士)。

多模态信号,包括文本、音频、图像和视频等,可以被整合到语义通信中,在语义层面提供低延迟、高质量的沉浸式体验。然而,多模态语义通信面临着数据异构、语义歧义和信号衰落等挑战。AI 大模型,尤其是多模态语言模型和大语言模型的发展,为解决这些问题提供了新思路。

基于此,由湖南师范大学、南京大学和东南大学等机构组成的研究团队提出了基于AI大模型的多模态语义通信(LAM-MSC)框架。

  • 论文题目:Large AI Model Empowered Multimodal Semantic Communications
  • 作者:江沸菠,董莉,彭于波,王可之,杨鲲,潘存华,尤肖虎
  • 来源:IEEE Communications Magazine
  • 论文链接:https://ieeexplore.ieee.org/abstract/document/10670195/

引言

人工智能和物联网的融合催生了全息通信等智能应用,推动通信系统向语义通信演进。语义通信注重传输内容的「含义」,能实现更智能的通信服务。随着元宇宙等应用发展,传输数据日益呈现多模态特征。

传统语义通信系统仅能处理单一模态数据,而多模态语义通信系统能够处理文本、语音、图像、视频等多种模态数据,减少了高开销和低效率的问题。

图 1 :传统的单模态语义通信系统与多模态语义通信系统。

如图 1(a)所示,传统的语义通信系统通常只能处理单一类型的单模态数据。因此,传输多模态数据时,需要使用多个单模态语义通信系统,可能导致显著的高开销和低效率。另一方面,图 1(b)展示了一个多模态语义通信系统,通过采用统一的多模态语义通信模型,可以处理多种模态数据。

然而,多模态语义通信系统的设计面临以下挑战:

(1)数据异构:需要处理文本、图像、视频等多种格式的数据,且目标任务可能非常复杂,涉及机器翻译、图像识别、视频分析等。提取语义特征时,还需解决不同模态之间的语义对齐问题。

(2)语义歧义:在不同模态之间传输数据时,可能会产生语义错误或误解,同时不同的知识背景可能导致语义理解不一致,进而引发歧义。

(3)信号衰落:信号在传输过程中可能会受到衰落和噪声的影响,导致信息丢失或语义变化,从而增加个性化语义重建的复杂性。

为解决上述挑战,本文提出了一种基于 AI 大模型的多模态语义通信框架,具体贡献如下:

(1)统一的语义表示:采用基于多模态语言模型的多模态对齐技术(MMA),使用可组合扩散模型(CoDi)处理多模态数据。MMA 通过构建共享的多模态空间,促进交叉模态的同步生成。通过将多模态数据统一到文本模态,提升语义一致性和信息传输的效率。

(2)个性化语义理解:设计了基于个性化 LLM 的知识库(LKB),利用 GPT-4 模型来理解个人信息。通过个性化提示库对 GPT-4 进行上下文学习,创建本地知识库,提取更多相关的语义信息,从而消除语义歧义。

(3)生成式信道估计:提出使用条件生成对抗网络进行信道估计(CGE),估算衰落信道的信道增益。该方法通过专用生成器网络和 leakyReLU 激活函数,捕捉信道增益的非线性特性,从而实现高质量的信道增益预测。

多模态语义通信的实现

LAM-MSC 框架集成了 AI 大模型作为解决方案。具体来说,该框架通过以下五个关键步骤实现多模态语义通信。

图 2 :所提出的 LAM-MSC 框架的示意图。

基于 MMA 的模态转换

对于输入的多模态数据(图像、音频和视频等),利用 MMA 将这些数据转换为文本数据,并保持语义对齐。

例如,如图 3 所示,原始的传输数据包括一张照片,上面是发送者(假设是 Mike)和接收者(假设是 Jane)在花园里玩耍的场景。然后,原始图像被转换成文本描述:「A boy and a girl in a playful pose. The boy has golden hair and is wearing a brown suit with a red tie. The girl has black hair and is wearing a white dress with a black bow. The background is a garden」。

图 3 :所提出的 LAM-MSC 框架的数据流示例:发送者 Mike 向接收者 Jane 发送一张图片,意图传达图片的语义内容为 「Mike and Jane are playing in a garden」。

基于 LKB 的语义提取

对转换后的文本数据,发送者只传输包含其意图的关键信息,省略冗余信息。整合发送者意图和用户信息,提取个性化语义。

如图 3 所示,通过整合发送者的意图、用户信息和兴趣,LKB 提取了个性化语义 「Jane and me in a playful pose. The background is a garden」。这个描述代表了发送者和接收者的身份,并表明发送者的关注重点主要是照片中的「两个人」和背景,而不是他们的装扮。

基于 CGE 辅助的语义通信数据传输

语义通信以语义编码器为起点,从原始数据中提取有意义的元素或属性,旨在将该语义信息尽可能准确地传输给接收者。然后,信道编码器将语义编码数据调制成适用于无线通信的复数输入符号。为了减轻衰落信道的影响,采用 CGE 来获取 CSI,从而将乘法噪声转化为加性噪声。

这种转换降低了信道解码器恢复传输信号的复杂性。接下来,利用信道解码器进行信号解调,同时克服加性噪声的影响。最后,语义解码器执行语义解码,从而获取恢复的语义(例如,「Jane and I are playfully posing. The background is a garden.」)。尽管物理信道的干扰导致恢复语义与原始内容之间存在轻微差异,但总体含义保持了一致性。

基于 LKB 的语义恢复

接收者可能无法直接理解恢复的语义,因为接收到的消息的个性化是针对发送者而不是接收者的,这可能导致语义歧义问题。类似地,根据接收者的个性化提示词和知识库,采用 LKB 将解码的语义转换为接收者的个性化语义。

如图 3 所示,LKB 根据接收者的用户信息(例如,身份)调整恢复的语义。因此,恢复的语义被转化为接收者 Jane 的个性化语义,得到文本「Mike and I are playfully posing. The background is a garden」。

基于 MMA 的模态恢复

与模态转换类似,MMA 用于实现模态恢复,即将文本数据转换回原始的模态数据。然而,需要注意的是,本文仅评估恢复的和原始的模态数据在语义层面上的一致性,而非数据细节的完全重现(例如可以通过角色一致性等技术生成相同角色身份的图片,但是无法保证图片在像素上的一致性)。

如图 3 所示,恢复的图像仅显示「Mike and Jane are playing in a garden」。这是因为发送者的主要意图在于人物和背景的语义方面,而不是关于人物装扮的具体细节。

仿真结果

图 4 在不同信噪比下的多模态语义通信传输准确性。

图 4 的消融实验显示,提高信噪比能提升多模态语义通信的准确性。对比 LAM-MSC 和无 LKB 的 LAM-MSC 可以看出,个性化知识库在提升语义传输准确性上起到了积极作用。

此外,去除 CGE 的 LAM-MSC 表现最差,表明在所提出的语义通信系统中引入 CGE 的重要性。

图 5 不同方法的对比结果。

图 5 的对比实验比较了 LAM-MSC 框架与专门用于图像传输的 DeepJSCC-V 方法和音频传输的 Fairseq 方法。

尽管这些方法在准确性上略胜一筹,但 LAM-MSC 在压缩率上表现更好,因为它能将图像和音频转为文本,减少传输数据量。此外,LAM-MSC 能处理多模态数据,而 DeepJSCC-V 和 Fairseq 只能处理单模态数据。

更多详情,请参阅论文原文。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
后续!孕妇200买水果被老公骂:已去医院终止妊娠,坦言及时止损

后续!孕妇200买水果被老公骂:已去医院终止妊娠,坦言及时止损

小鋭有话说
2026-04-14 08:37:44
美媒:美国海上封锁伊朗 超15艘美军舰已到位

美媒:美国海上封锁伊朗 超15艘美军舰已到位

新华社
2026-04-14 11:38:02
刚刚!许家印当庭认罪!2万亿巨债谁来买单?

刚刚!许家印当庭认罪!2万亿巨债谁来买单?

澳洲红领巾
2026-04-14 14:18:38
个人PC已死!AI让普通人彻底买不起电脑

个人PC已死!AI让普通人彻底买不起电脑

快科技
2026-04-13 18:35:05
新能源车牌绿色变白色?交管部门回应

新能源车牌绿色变白色?交管部门回应

第一财经资讯
2026-04-14 15:11:18
120家门店倒闭了一半?又一个海鲜自助“大撤退”

120家门店倒闭了一半?又一个海鲜自助“大撤退”

蓝鲸新闻
2026-04-13 10:19:47
伊朗到现在都不敢相信,40天的血战,给自己打出了半个世纪的国运

伊朗到现在都不敢相信,40天的血战,给自己打出了半个世纪的国运

共工之锚
2026-04-14 00:36:53
今天才知道,为啥鹅蛋很少有人吃?为啥卖鹅蛋的人很少?涨知识

今天才知道,为啥鹅蛋很少有人吃?为啥卖鹅蛋的人很少?涨知识

阿龙美食记
2026-04-12 15:01:18
美军开始在海峡拦截船只,伊朗有一个王牌绝招,让特朗普隐隐不安

美军开始在海峡拦截船只,伊朗有一个王牌绝招,让特朗普隐隐不安

军机Talk
2026-04-14 15:39:43
这一仗打得真漂亮:曝光俄匈外长通话内容干翻欧尔班!

这一仗打得真漂亮:曝光俄匈外长通话内容干翻欧尔班!

李未熟擒话2
2026-04-14 11:48:13
后续!孕妇花198买水果被骂:已终止妊娠并准备离婚,老公崩溃了

后续!孕妇花198买水果被骂:已终止妊娠并准备离婚,老公崩溃了

青梅侃史啊
2026-04-14 14:44:08
云南曲靖一学生在校遭欺凌,父亲在校调解室情绪激动猝死,母亲称在场的没人会用AED;当地教育局成立专班,公安机关已介入

云南曲靖一学生在校遭欺凌,父亲在校调解室情绪激动猝死,母亲称在场的没人会用AED;当地教育局成立专班,公安机关已介入

大象新闻
2026-04-13 23:45:02
大风315 | 旧车交由经销商申请报废,残值咋能按0元计算?4S店:合同约定好的,置换补贴含残值

大风315 | 旧车交由经销商申请报废,残值咋能按0元计算?4S店:合同约定好的,置换补贴含残值

大风新闻
2026-04-14 11:32:07
乌克兰又玩出新高度,零伤亡拿下俄军阵地,全靠机器人

乌克兰又玩出新高度,零伤亡拿下俄军阵地,全靠机器人

刀刀观察
2026-04-14 12:40:03
“46岁罗志祥在家中猝死”登上热搜!经纪人回应

“46岁罗志祥在家中猝死”登上热搜!经纪人回应

洪观新闻
2026-04-14 14:37:35
许家印大概不会活着走出监狱

许家印大概不会活着走出监狱

深度财线
2026-04-14 14:50:07
外媒:巴基斯坦购40架歼-35战机,单价8000万美元

外媒:巴基斯坦购40架歼-35战机,单价8000万美元

无人倾听无人倾听
2026-04-14 10:38:21
最新数据:美国从中国进口的智能手机比例从90%骤降至25%,组装中心加速转移

最新数据:美国从中国进口的智能手机比例从90%骤降至25%,组装中心加速转移

风向观察
2026-04-14 14:25:12
曼奇尼率领萨德提前赢得联赛冠军,为其执教生涯的第15个冠军

曼奇尼率领萨德提前赢得联赛冠军,为其执教生涯的第15个冠军

懂球帝
2026-04-14 10:15:07
涉嫌8罪名!67岁许家印当庭认罪悔罪 择期宣判+最高可判无期徒刑

涉嫌8罪名!67岁许家印当庭认罪悔罪 择期宣判+最高可判无期徒刑

念洲
2026-04-14 12:34:51
2026-04-14 18:40:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12761文章数 142628关注度
往期回顾 全部

科技要闻

离职同事"炼化"成AI?这届公司不需要活人了

头条要闻

美伊谈到80%突然崩了:会场传争论声 内塔尼亚胡打电话

头条要闻

美伊谈到80%突然崩了:会场传争论声 内塔尼亚胡打电话

体育要闻

带出中超最大黑马!他让球迷们“排队道歉”

娱乐要闻

宋祖儿刘宇宁恋情大反转 正主火速辟谣

财经要闻

许家印受审当庭表示认罪悔罪

汽车要闻

售12.99万起/续航2000km 风云T9L上市

态度原创

房产
教育
数码
游戏
本地

房产要闻

改善标杆,1.5w+起横扫国兴!海口楼市,打出最猛一张牌!

教育要闻

2026强基计划20校“特权”政策全解析:数学物理尖子生可降分录取

数码要闻

鹏钛存储:新一代PCIe Gen6CXL Gen3 SSD主控正在研发

《大镖客2》这张地图被砍90%!玩家热议太可惜

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

无障碍浏览 进入关怀版