网易首页 > 网易号 > 正文 申请入驻

【UAV+ISAC】无人机辅助的主动+被动感知:混合SAC算法让通信与感知“双赢”【附pyth...

0
分享至

来源:市场资讯

(来源:EW Frontier)

【EW Frontier】——雷达通信AI科研人的一站式技术平台!

✅ 超1000+实战代码:DOA/调制识别/ISAC/抗干扰/无人机等雷达、通信、电子战全方向(MATLAB+Python)

✅ 专属科研辅导:论文专利选题/仿真/写作、项目定制全程答疑

✅ 优质社群资源:985/211硕博同行交流,最新技术干货实时同步

资源获取通道

知识星球(全部资源无限看):https://wx.zsxq.com/group/15554455154582

面包多(单个代码精准购):https://mbd.pub/o/EWFrontier/work

辅导/答疑:

‍客服微信: EWFrontier

无人机辅助的主动+被动感知:混合SAC算法让通信与感知“双赢”

一架按规划路线飞行的物流无人机,在传递少量飞行指令的同时,竟能充当“空中耳朵”,帮助地面基站精准定位未知黑飞目标——这是通感一体化(ISAC)的新范式。

随着低空经济飞速发展,大量无人机将参与物流配送、城市巡检等任务。这些无人机通常按照预先规划的航线飞行,与地面基站(GBS)之间只需要间歇性传输少量飞行指令数据(通信负载很低)。那么,这些“轻载”无人机的空闲时间能不能用来帮地面基站做点更有价值的事?本文给出肯定的答案:让通信无人机在空闲时充当被动感知接收器,接收来自未知目标的反射回波,与地面基站自身的主动感知协同工作,从而大幅提升对黑飞目标的定位精度。


具体而言,本文提出了一个无人机辅助的主动‑被动感知与通信一体化(IAPSC) 框架。其中,地面基站发射ISAC信号,通信无人机沿预定轨迹飞行,在部分信号帧中接收未知无人机的回波(被动感知),并将数据回传至基站进行融合。作者推导了融合主动与被动测量后的三维定位克拉美‑罗界(CRB),并将其作为优化目标。考虑到问题涉及离散的帧分配和连续的波束赋形/功率分配,是一个混合动作空间的优化问题,本文提出了混合Soft Actor‑Critic(hybrid‑SAC) 算法——在SAC框架内用双层critic网络处理离散动作选择,用actor网络输出连续动作。

仿真表明,hybrid‑SAC相比原始SAC算法提升43%的感知性能,收敛速度快于PDQN等基准,而且定位精度逼近传统遗传算法但计算复杂度大幅降低。

一、引言:无人机与通感一体化为何是天作之合?

1.1 低空经济催生新需求

无人机送外卖、空中巡检、农业监测……低空经济正在成为新的增长极。然而,大量无人机在低空飞行,不可避免地会带来监管难题:未经授权的“黑飞”无人机闯入禁飞区怎么办?传统雷达成本高,视觉方案受天气限制,而利用现有的蜂窝网络进行感知(即通感一体化,ISAC)被公认为最具潜力的解决方案。


1.2 无人机做ISAC:两种思路

目前无人机与ISAC的结合主要有两条路线:

  1. 1

    无人机独立担当ISAC平台:无人机既做通信基站,又做雷达。优点灵活,但受限于电池、计算能力,难以实现高精度感知。

  2. 2

    无人机+地面基站协作:地面基站提供强大算力和稳定供电,无人机提供灵活覆盖和视距信道。但现有工作中,无人机仍然主要作为发射端,没有充分利用其作为被动接收器的潜力。

1.3 本文的核心洞察

那些按预定路线飞行的物流/巡检无人机,它们与地面基站之间只需要很少的通信数据(例如每几秒接收一次“继续飞行”指令)。那么,在剩下的时间里,它们能不能“顺便”帮忙监听空中的回波信号呢?


如果能,那么地面基站的主动感知(发射信号并接收目标回波) 与通信无人机的被动感知(接收目标反射的同一信号) 就可以融合起来。由于无人机的位置已知且具有视距优势,被动感知可以提供与主动感知相互独立的信息,从而显著降低定位的不确定性。

但这里有一个关键的优化难题:每个时间槽被划分为多个信号帧,有些帧用于“主动+被动感知”(此时通信无人机只收不回),有些帧用于“主动感知+通信”(此时通信无人机还要接收通信数据)。如何动态分配帧数、分配功率、设计波束,才能在满足通信需求的前提下最小化定位误差?这是一个混合离散‑连续优化问题,传统凸优化方法计算复杂且仅能收敛到驻点。

为此,本文提出了混合SAC算法——一种专为混合动作空间设计的深度强化学习方法,能够在线学习最优策略。

二、系统模型与问题形式化

2.1 系统组成

考虑一个地面基站(GBS)、一架通信无人机(沿已知轨迹飞行)和一架被感知的未知无人机(位置待估计)。三者位置关系如图5所示。


  • GBS:配备的均匀平面阵列(UPA),收发一体。

  • 通信无人机:配备的UPA,沿预规划轨迹飞行,位置已知。

  • 被感知无人机:位置未知,视为点目标,雷达截面积(RCS)为。

2.2 帧结构设计(关键创新)

每个时间槽被分为个信号帧,分为两部分(图2):


  • APSP(主动‑被动感知部分):前帧。GBS发射纯感知信号,通信无人机与GBS同时接收目标回波。通信无人机在此阶段只做被动感知,不接收通信数据。

  • ASCP(主动感知与通信部分):后帧。GBS同时发射感知信号与通信信号,通信无人机接收通信数据(也仍会收到一部分感知信号和回波,作为干扰处理)。

这种设计的好处:在APSP阶段,通信无人机可以全神贯注地收集微弱的目标回波;在ASCP阶段,则满足其通信需求。主动与被动感知的数据在GBS处融合。

2.3 信道与信号模型

由于无人机飞行高度较高,空地信道以视距(LoS)为主。感知信道(主动和被动)均建模为LoS,通信信道采用Rician衰落。

主动感知:GBS发射,回波被GBS自身接收。信道增益

被动感知:GBS发射,经目标反射后由通信无人机接收。信道增益

接收信号表达式在(6)中给出。关键点:通信无人机收到的直射信号(来自GBS的直接链路)和反射信号可以由GBS提前估计并消除,因为通信无人机的位置已知。


2.4 定位误差下界:克拉美‑罗界(CRB)

为了量化融合主动和被动感知后的定位性能,作者推导了三维坐标估计的CRB矩阵(见附录A)。核心结果是:

  • 每个信号帧对CRB的贡献由两部分组成:主动感知项和被动感知项。

  • 在APSP帧中,两者都存在;在ASCP帧中,仅主动感知项存在(因为通信无人机忙于通信,不贡献被动数据)。

  • 最终定位误差的迹作为优化目标。

2.5 优化问题

目标:在长时间内最小化平均CRB,受约束:


  • 通信无人机每时间槽获得的数据量(保证飞行安全指令能下来)。

  • 帧数分配为整数。

  • 每帧的波束赋形向量满足功率约束。

这是一个混合整数非线性规划,且信道状态随时间变化(通信无人机在移动),因此适合用深度强化学习求解。

三、混合SAC算法:让DRL学会混合动作

3.1 为什么标准SAC不够用?

标准SAC(Soft Actor‑Critic)是连续动作空间的SOTA算法。但在本问题中:

  • 离散动作:(从1到L-1的整数)。

  • 连续动作:波束赋形向量(复数,可通过实部虚部展开为连续向量)。

标准SAC会将离散动作强行映射为连续值(例如用sigmoid输出再取整),这会破坏动作的语义并导致收敛不稳定。PDQN(Parametrized DQN)虽然能处理混合动作,但收敛速度慢且易陷入局部最优。


3.2 hybrid‑SAC的核心架构

本文提出的hybrid‑SAC(图3、图4)在经典SAC基础上做了关键改造:

  • Actor网络:负责输出连续动作(波束赋形参数)。

  • Critic网络:有两个evaluation critic和两个target critic。每个critic网络在输出层增加了一个维度,用于计算每个可能离散动作的Q值。具体来说,给定状态和连续动作,critic网络输出一个长度为的向量,每个元素对应取不同时的Q值。

  • 离散动作选择:执行时,取对应的离散动作。

  • 更新规则:在计算TD目标时,使用来避免过估计。损失函数和策略梯度也用同样的最大化处理。

这样,actor网络只需要学习连续动作,而critic网络同时评估离散‑连续组合的质量。两者的训练通过共享的经验回放统一进行。


3.3 状态、动作、奖励设计

  • 状态:包含当前通信数据量、当前CRB、被感知无人机估计位置(通过扩展卡尔曼滤波获得)和通信无人机已知位置。

  • 动作:+ 所有帧的。

  • 奖励:两部分之和。

鼓励降低CRB。:当时,线性惩罚;否则为0。总奖励是负值(最小化CRB),通过调整系数使算法收敛。

算法1给出了完整的训练流程。超参数如表II所示。

四、仿真结果与分析

4.1 收敛性对比

图7显示,hybrid‑SAC在约100个episode后稳定收敛到最高奖励值(约-1.7),而原始SAC收敛到约-2.2,PDQN收敛更慢且值更低。说明hybrid‑SAC既保持了SAC的探索效率,又精准处理了离散动作。

4.2 定位精度对比

图8展示了平均CRB随episode的变化。hybrid‑SAC最终达到约0.17 m²的CRB迹,相比SAC(0.3 m²)提升43%,相比PDQN(0.4 m²)提升更多。更重要的是,这个精度与遗传算法(GA) 的0.15 m²非常接近——而遗传算法的计算复杂度远高于DRL(每代需要评估大量个体)。这意味着hybrid‑SAC用更少的计算代价达到了传统优化方法几乎最优的性能。

4.3 不同参数下的表现

  • 发射功率(图9):功率从5W提高到9W,CRB从0.17降至0.09 m²,说明功率仍是定位精度的决定性因素。

  • 最低通信数据量(图10):从1MB增加到4MB,CRB显著恶化,且训练波动变大。因为更多帧必须用于通信,挤压了被动感知的时间。

  • 帧数(图11):帧数从8增加到32,CRB下降。更多帧提供了更丰富的测量信息。

  • 融合被动感知(图12):如果不使用通信无人机做被动感知(即仅靠GBS自身),CRB约为0.9 m²,远高于融合后的0.17 m²。这直接证明了利用“空闲”无人机做被动接收的巨大价值。

五、结论与研究者启发

5.1 论文贡献总结

  1. 1

    提出新颖的ISAC架构:让低通信负载的无人机充当被动感知节点,与地面基站的主动感知互补,显著提升对未知目标的定位精度。

  2. 2

    推导融合主动‑被动感知的CRB:为系统设计和算法优化提供了理论下界。

  3. 3

    设计hybrid‑SAC算法:在SAC框架内巧妙处理混合动作空间,解决传统DRL难以同时优化离散和连续动作的问题。

  4. 4

    充分验证:仿真表明,hybrid‑SAC比现有DRL基准快且准,逼近遗传算法性能但复杂度低。

5.2 给研究者的三点启发

启发一:不要浪费“已知的移动节点”通信无人机虽然主要任务是通信,但它们的位置是已知且随时间变化的。把它们当作“移动的被动接收天线”,本质上是在已有的通信链路基础上零硬件成本地增加感知维度。类似思路可以推广到其他场景:例如,已知位置的智能汽车、地面CPE设备,都可以被用于辅助感知。

启发二:混合动作空间不是“麻烦”,而是优化机会很多实际工程问题同时包含离散决策(比如选择哪几个天线工作、选择调制阶数)和连续参数(功率、相位)。强行将离散动作连续化会丢失结构信息,而专门设计混合动作DRL(如hybrid‑SAC、PDQN)可以更高效地探索。本文展示了如何将离散动作选择自然地嵌入critic网络的输出维度——这是一个非常简洁且可迁移的设计。

启发三:CRB可以作为DRL的奖励信号传统DRL设计中奖励往往是启发式的手工函数。本文直接将分析推导的CRB(定位误差下界)用作奖励的核心项。这种做法让优化目标与物理意义直接对齐,避免了“代理奖励”带来的次优性。在其它传感器调度、波束跟踪等任务中,如果存在闭式的性能界(如CRB、互信息下界),也可以考虑直接作为奖励。

5.3 未来方向

  • 多无人机协作:多架通信无人机同时做被动感知,融合更多视角。

  • 实测验证:在真实无人机平台上验证算法实时性。

  • 考虑非理想因素:量化误差、有限采样、信道时变等。

参考文献

[1] K. Yan et al., "UAV-Assisted Integrated Active and Passive Sensing With Communication: A Hybrid-SAC Approach," IEEE Trans. Veh. Technol., vol. 75, no. 4, Apr. 2026.

[2] T. Haarnoja et al., "Soft actor-critic: Off-policy maximum entropy deep reinforcement learning," ICML, 2018.

[3] J. Xiong et al., "Parametrized deep Q-networks learning: Reinforcement learning with discrete-continuous hybrid action space," arXiv:1810.06394.

[4] H. Godrich et al., "Power allocation strategies for target localization in distributed multiple-radar architectures," IEEE TSP, 2011.

结语:当无人机不再只是“飞行基站”,而是成为“空中感知共同体”的一部分,通感一体化的边界将被极大拓展。本文的hybrid‑SAC方法为这种协作式感知提供了一个高效、优雅的求解工具。如果你正在研究无人机、ISAC或混合动作空间的DRL,这篇文章值得细读。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
深圳6岁男童吃生菜包烤肉后,全身出现大片青斑、血肿

深圳6岁男童吃生菜包烤肉后,全身出现大片青斑、血肿

听心堂
2026-05-09 18:11:29
李泽楷做错了?香港拿下世界杯转播权,官媒锐评:给内地谈判底气

李泽楷做错了?香港拿下世界杯转播权,官媒锐评:给内地谈判底气

好贤观史记
2026-05-09 18:00:07
4只皮皮虾1035元,官方回应是否“带客吃回扣”

4只皮皮虾1035元,官方回应是否“带客吃回扣”

中国新闻周刊
2026-05-09 19:38:06
大瓜!许家印昔日恒大奢靡细节流出,丁玉梅海外包养30岁白人小伙

大瓜!许家印昔日恒大奢靡细节流出,丁玉梅海外包养30岁白人小伙

壹月情感
2026-05-09 00:00:07
141:0压倒性优势,欧盟成员国通过重大草案,中国外交部:赞赏

141:0压倒性优势,欧盟成员国通过重大草案,中国外交部:赞赏

书纪文谭
2026-05-08 15:05:30
杜锋:赢得不容易,北京招兵买马实力强,我培养的赵睿也在那

杜锋:赢得不容易,北京招兵买马实力强,我培养的赵睿也在那

懂球帝
2026-05-09 22:00:42
人民日报发声:机关事业单位的隐性收入,正在消失

人民日报发声:机关事业单位的隐性收入,正在消失

细说职场
2026-05-09 12:16:27
4战国乒吞0-12!法国男团放话:中国队已不可怕 我们将首次赢他们

4战国乒吞0-12!法国男团放话:中国队已不可怕 我们将首次赢他们

风过乡
2026-05-09 17:29:03
央视报价34亿打包两届世界杯!与国际足联要价差6亿 有望达成协议

央视报价34亿打包两届世界杯!与国际足联要价差6亿 有望达成协议

念洲
2026-05-09 19:24:36
香港富豪孙女被绑架,绑匪拿到2800万后逃跑,警方最新透露:女事主镇定、有条理,一个线索成破案关键

香港富豪孙女被绑架,绑匪拿到2800万后逃跑,警方最新透露:女事主镇定、有条理,一个线索成破案关键

南方都市报
2026-05-09 15:00:26
“4只皮皮虾1035元”当事人否认想吃白食,删除评论;隔壁海鲜店发声

“4只皮皮虾1035元”当事人否认想吃白食,删除评论;隔壁海鲜店发声

上观新闻
2026-05-09 09:58:08
大快人心!中国民航新规出炉:日本航空过境中国好日子即将到头!

大快人心!中国民航新规出炉:日本航空过境中国好日子即将到头!

影像温度
2026-05-09 10:27:26
中国“退步”最快的城市:曾与南京、上海齐名,如今却沦为三线

中国“退步”最快的城市:曾与南京、上海齐名,如今却沦为三线

长风文史
2026-05-08 13:02:57
病毒不在中国爆发,外媒全哑火了!外国网友:怎么还没人责怪荷兰

病毒不在中国爆发,外媒全哑火了!外国网友:怎么还没人责怪荷兰

混沌录
2026-05-09 14:54:10
女子190元买榴莲“仅退款”被拘,往返1600公里讨公道的河南商家最新发声:买家才20多岁,她父母想协商和解,我要求依法处理,并公开道歉

女子190元买榴莲“仅退款”被拘,往返1600公里讨公道的河南商家最新发声:买家才20多岁,她父母想协商和解,我要求依法处理,并公开道歉

大风新闻
2026-05-09 10:00:07
近10年学术不端名单:协和“4+4”董袭莹、“首席科学家”郭伟、“不知知网”翟天临

近10年学术不端名单:协和“4+4”董袭莹、“首席科学家”郭伟、“不知知网”翟天临

网易新闻出品
2026-05-09 18:38:13
朝鲜宪法迎来大改,平壤坚持了78年的道路,被金将军亲手放弃

朝鲜宪法迎来大改,平壤坚持了78年的道路,被金将军亲手放弃

安珈使者啊
2026-05-09 14:24:39
雪中送炭!中方伸出援手,3小时直飞达沃,给绝境中的莎拉带来希望

雪中送炭!中方伸出援手,3小时直飞达沃,给绝境中的莎拉带来希望

井普椿的独白
2026-05-09 14:26:34
驻加尔各答总领馆再次提醒中国公民避免自尼泊尔误入印度国境

驻加尔各答总领馆再次提醒中国公民避免自尼泊尔误入印度国境

环球网资讯
2026-05-09 21:42:17
光纤大利好!外资最新重仓3家低价光纤股,最高6元,最低5元

光纤大利好!外资最新重仓3家低价光纤股,最高6元,最低5元

长风价值掘金
2026-05-09 17:04:58
2026-05-09 22:55:00
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
3159368文章数 7270关注度
往期回顾 全部

科技要闻

美国政府强力下场 苹果英特尔达成代工协议

头条要闻

毛焦尔当选匈牙利总理 此前曾表示有意访问北京

头条要闻

毛焦尔当选匈牙利总理 此前曾表示有意访问北京

体育要闻

成立128年后,这支升班马首夺顶级联赛冠军

娱乐要闻

50岁赵薇脸颊凹陷沧桑得认不出!

财经要闻

多地号召,公职人员带头缴纳物业费

汽车要闻

轴距加长/智驾拉满 阿维塔07L定位大五座SUV

态度原创

家居
艺术
游戏
公开课
军事航空

家居要闻

菁英人居 全能豪宅

艺术要闻

齐白石 紫藤蜜蜂

LPL第二赛段:滔搏太想进步了!TES横扫WE,保持第二名的位置

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美伊突然再次交火 伊朗外长:战争准备程度是1000%

无障碍浏览 进入关怀版