来源:市场资讯
(来源:EW Frontier)
【EW Frontier】——雷达通信AI科研人的一站式技术平台!
✅ 超1000+实战代码:DOA/调制识别/ISAC/抗干扰/无人机等雷达、通信、电子战全方向(MATLAB+Python)
✅ 专属科研辅导:论文专利选题/仿真/写作、项目定制全程答疑
✅ 优质社群资源:985/211硕博同行交流,最新技术干货实时同步
资源获取通道
知识星球(全部资源无限看):https://wx.zsxq.com/group/15554455154582
面包多(单个代码精准购):https://mbd.pub/o/EWFrontier/work
辅导/答疑:
客服微信: EWFrontier
认知雷达新突破:POMDP驱动的大规模MIMO,在未知干扰中同时检测与跟踪目标
当雷达不再预设噪声分布,而是像智能体一样主动“思考”该往哪个方向发射能量——即使干扰统计完全未知,依然能稳定跟踪高速目标。
摘要
传统雷达通常假定噪声服从已知分布(如高斯白噪声),但在实际战场、城市低空等复杂环境中,干扰往往是非高斯、非平稳、未知统计的。为了应对这一挑战,认知雷达应运而生——它能根据环境反馈动态调整发射波形。然而,现有认知雷达算法要么需要已知干扰统计,要么只解决检测问题而忽略跟踪,要么依赖离线训练的数据集(难以覆盖所有场景)。
本文提出了一种全新的解决思路:将大规模MIMO(MMIMO)雷达的检测‑跟踪联合问题建模为部分可观测马尔可夫决策过程(POMDP)。利用MMIMO雷达的“海量虚拟通道”带来的鲁棒性——即使干扰分布未知,也能保证恒虚警率(CFAR)——再结合在线规划算法POMCP(部分可观测蒙特卡洛规划),雷达可以像智能体一样,基于历史观测实时选择最优的发射角度(即波形矩阵),同时估计目标位置和速度。
![]()
关键创新在于:
无需任何干扰先验知识:通过MMIMO的渐近理论构造了一个黑箱生成器,替代了传统POMDP所需的已知观测概率模型。
联合检测与跟踪:奖励函数设计为“预测到目标所在角度”,驱动雷达主动追逐目标。
完全在线:不需要离线训练数据集,适应性极强。
超越SARSA:在与传统强化学习算法(SARSA)的对比中,POMCP在低信噪比、高速目标场景下检测率提升超过3倍。
仿真结果表明,在目标信噪比低至-20dB、速度高达350m/s的情况下,POMCP仍能将检测概率维持在0.8以上,而传统粒子滤波和SARSA均快速失效。
一、引言:为什么认知雷达需要“未知干扰”下的鲁棒性?
1.1 从“已知”到“未知”的跨越
传统雷达设计通常假设干扰(噪声、杂波)服从已知的概率分布(最常见的是高斯白噪声)。这一假设使得我们可以设计出奈曼‑皮尔逊准则下的最优检测器,例如匹配滤波。然而,在实际环境中,干扰可能是由人为干扰、非均匀杂波、间歇性脉冲等导致的非高斯、时空相关、统计未知的信号。如果模型错误,检测性能会严重下降,虚警率失控。
认知雷达的提出正是为了解决这一问题:雷达通过主动感知环境、调整波形,获得更好的检测和跟踪性能。但大多数认知雷达方案要么仍假设已知干扰模型(如贝叶斯方法),要么只优化检测而忽略跟踪,要么需要大量离线训练数据(例如深度强化学习)——在雷达领域,收集所有可能的环境和轨迹数据是不现实的。
1.2 大规模MIMO雷达的独特优势
大规模MIMO雷达(MMIMO)配备了大量发射和接收天线,形成数以千计的虚拟通道。近年来的理论发现:即使干扰的精确分布未知,只要其自相关函数以多项式速率衰减,那么基于MMIMO的Wald型检测器的检验统计量渐近服从卡方分布,从而可以设定**恒虚警率(CFAR)**的阈值。这意味着检测器本身是“分布未知鲁棒”的。
但是,这个检测器只能给出“有无目标”的二元决策,以及一个对目标功率的估计。它无法自动最大化检测概率,也无法跟踪目标的运动。因此,需要更高层的决策策略来指导雷达下一步该“看”哪个方向。
1.3 现存方案的不足与POMDP的引入
SARSA算法:将波形选择建模为马尔可夫决策过程(MDP),假设状态完全可观测。但实际中雷达只能通过有噪观测推断目标位置,状态是部分可观测的。SARSA在目标静止或慢速时有效,但在高速动态场景下性能急剧下降。
粒子滤波+固定策略:仅做状态估计,不做动作优化,容易丢失目标。
深度强化学习(DRQN等):需要大量离线训练数据,且对环境变化敏感。
**部分可观测马尔可夫决策过程(POMDP)**天然适合雷达跟踪问题:目标的位置和速度是隐藏状态(不可直接观测),雷达只能获得来自检测器的观测(检测或未检测,以及目标功率的估计)。POMDP的在线求解器(如POMCP)可以在线规划,无需预先知道转移概率和观测概率——这正是本文的核心思想。
二、系统模型与问题形式化
2.1 MMIMO雷达信号模型
考虑一个共址MIMO雷达,发射天线数,接收天线数,虚拟通道数(典型值为10000)。雷达的视场离散化为个角度单元。
在时间步,雷达选择一个波形矩阵,该矩阵由优化问题(3)的解给出:为了将能量聚焦到某个角度,取的平方根。这就是雷达的动作:选择角度 bin。
接收信号模型:
其中是未知分布的干扰,是由动作和导向矢量决定的已知向量,是目标复散射系数(与距离平方成反比)。
2.2 鲁棒Wald检测器及其渐近分布
文献提出了如下的检验统计量:
其中是的估计,是干扰协方差的估计。关键结论:
在下,(中心卡方),因此可以设定阈值来保证恒虚警。
在下,,非中心参数与目标功率、波形、干扰协方差有关。
由此,检测概率可由 Marcum Q 函数近似。
2.3 将认知雷达建模为POMDP
我们将问题映射到POMDP的六个要素:
状态:目标的位置和速度,即。状态转移遵循线性高斯模型(匀速运动加过程噪声)。
动作:选择角度 bin,相当于选择下一个波形。
观测:如果检测发生(),则观测到(连续值),否则观测为空。为了离散化,设定一个离散化步长,将连续观测映射到离散区间。
观测概率:未知!因为干扰分布未知。这正是传统POMDP难以直接应用的原因。
转移概率:由目标运动学决定,不依赖于动作。
奖励函数:如果雷达选择的动作角度与目标下一时刻的真实角度相同,则奖励为1,否则为0。这鼓励雷达主动追逐目标。
3.1 传统POMCP的假设
POMCP是一个著名的在线POMDP规划算法,它通过蒙特卡洛树搜索模拟未来的动作-观测轨迹来估计当前状态的值。它假设我们可以调用一个黑箱生成器,其中采样自转移分布,采样自观测分布。然而,我们不知道观测分布的具体形式。
3.2 利用渐近理论构造生成器
为了解决这个难题,本文巧妙地利用了MMIMO雷达渐近结果:
从(23)可知,估计的目标功率围绕真值呈渐近高斯分布,方差可以通过数据估计。
因此,生成器(Algorithm 3)可以:
根据当前状态和动作(即选定的角度 bin),按照运动模型预测下一状态。
计算目标真实角度和真实 RCS。
生成带高斯噪声的。
计算检验统计量,并与阈值比较决定是否检测到。
如果检测到且角度匹配,则输出观测(离散化后)。
奖励为1若预测角度正确,否则0。
关键点:这个生成器不依赖于干扰的真实分布,只依赖从数据中估计的和渐近性质。因此,即使真实干扰未知,我们仍然可以运行POMCP进行在线规划。
3.3 联合粒子滤波与POMCP
POMCP在树搜索内部需要维护信念(belief)——即目标状态的后验分布。本文采用无权重粒子滤波(每个粒子权重视为相等),粒子集大小为。每个时间步:
- 1
用当前粒子集近似信念。
- 2
运行POMCP(次模拟),从根节点开始,使用生成器进行模拟展开,最终选择最优动作。
- 3
执行该动作,获得真实回波信号,计算出真实观测(实际系统运行时的观测,由真实干扰产生)。
- 4
更新信念:利用粒子滤波,对每个粒子用生成器模拟一步,只保留那些模拟出的观测与真实观测一致的粒子。重复直到填满新的粒子集。
这个过程中,POMCP用于选择动作,粒子滤波用于状态估计,两者共享同一个生成器。
四、仿真验证与性能对比
4.1 实验设置
虚拟通道数,角度单元,总功率,虚警率。
干扰模型:6阶自回归过程,创新分布为分布(,重尾非高斯),系数均为复数,模拟高度非平稳、非高斯干扰。
两个典型场景:
- 慢速目标
:初始位置 (60km, -60km),速度 (0.2km/s, 0.2km/s),过程噪声,SNR平均约 -17dB 逐渐降至 -18dB。
- 快速目标
:速度 (0.35km/s, 0.35km/s),噪声,SNR从 -17dB 降至 -20dB。
- 慢速目标
对比算法:Oracle(预知未来角度,作为性能上界)、粒子滤波(无规划,固定动作)、SARSA(之前 RL 方法)、正交波形(无波形优化)。
4.2 结果分析
图3、4(慢速目标):
![]()
粒子滤波的位置RMSE随时间迅速增大(目标丢失)。
POMCP的RMSE与Oracle非常接近,始终保持在5km以内。
速度估计方面,POMCP初始偏差较大,但随着观测累积快速收敛。
图5(检测概率,慢速目标):
![]()
正交波形:始终低于0.2。
SARSA:小幅提升,但仍低于0.4。
粒子滤波:初期勉强维持,但约30步后跌至0.2以下。
POMCP:在100步内维持在0.8以上,接近Oracle。
图7、8、9(快速目标):
![]()
趋势相似,但所有算法性能略有下降(SNR更低)。
POMCP仍然保持,而SARSA和粒子滤波几乎降至0。
图10(树深度影响):
![]()
![]()
深度2比深度5在大多数情况下更好或相当。原因是:生成器的近似偏差随模拟步数增加而累积,浅层树更依赖真实观测修正。
图11(动作分析):
![]()
![]()
POMCP选择的动作与最优动作(目标真实角度)高度一致,说明算法真正学会了“追逐”目标。
5.1 论文贡献总结
- 1
首个将POMCP用于MMIMO雷达联合检测‑跟踪的工作,并且不依赖干扰先验知识。
- 2
通过生成器设计巧妙绕过了观测模型未知的障碍,利用MMIMO的渐近统计特性实现可计算的在线规划。
- 3
在极端非高斯、低SNR、高速运动条件下,检测概率比SARSA高3倍以上,跟踪精度接近Oracle。
5.2 给研究者的三点启发
启发一:认知雷达的“在线”属性远比“离线训练”更实用雷达部署环境千变万化,几乎不可能预先收集所有可能的干扰和轨迹数据集。POMCP方法完全在线,不需要训练阶段,而且能自适应环境变化。相比之下,深度强化学习虽然强大,但在雷达领域的实际落地受限于数据获取。这提示我们:在传感器领域,无模型在线规划算法可能比数据驱动的黑箱方法更具生命力。
启发二:“部分可观测”是雷达的常态,应被显式建模许多雷达跟踪研究将问题简化为MDP(假设状态完全已知),但实际中雷达只能通过回波间接推测目标状态。本文显式地将目标状态作为隐藏变量,用POMDP处理,并用粒子滤波维护信念。这种信念驱动的决策方式比直接最大化瞬时检测概率更鲁棒——因为它考虑了不确定性。
启发三:领域知识与渐近理论可以“替代”复杂概率模型POMDP通常要求已知观测概率,而这在雷达中往往未知。本文没有试图估计干扰分布,而是利用MMIMO的大数定律构造了一个可采样的生成器。这种思路可以推广到其他高维、渐近高斯的传感器问题中:只要我们能渐近地逼近后验采样,就可以用在线规划求解。
5.3 未来展望
多目标扩展:当前版本假设单目标。多目标需要更大的状态空间和更复杂的信念表示,可能结合动态贝叶斯网络。
超参数自适应:POMCP中的UCB系数、树深度、粒子数等目前通过试探设定,未来可以设计自适应调整机制。
实际硬件验证:仿真中用了重尾AR模型,下一步应在真实MMIMO雷达平台上测试。
[1] I. Bouhou et al., "POMDP-Driven Cognitive Massive MIMO Radar: Joint Target Detection-Tracking In Unknown Disturbances," arXiv:2410.17967v2, 2025.
[2] S. Fortunati et al., "Massive MIMO radar for target detection," IEEE TSP, 2020.
[3] A. M. Ahmed et al., "A reinforcement learning based approach for multi-target detection in massive MIMO radar," IEEE TAES, 2021.
[4] D. Silver and J. Veness, "Monte-Carlo planning in large POMDPs," NIPS 2010.
结语:认知雷达的本质是“感知‑行动‑学习”的闭环。本文展示的POMCP框架,不仅让雷达在完全未知的干扰环境中“存活”下来,而且实现了近乎最优的检测跟踪性能。这种将统计信号处理与在线强化学习深度融合的思路,值得每一位从事雷达、感知或机器人领域的研究者深思。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.