认知雷达新突破：POMDP驱动的大规模MIMO，在未知干扰中同时检测与跟踪目标【附python代码】|算法|粒子|信号|mimo

分享至

来源：市场资讯

（来源：EW Frontier）

【EW Frontier】——雷达通信AI科研人的一站式技术平台！

✅ 超1000+实战代码：DOA/调制识别/ISAC/抗干扰/无人机等雷达、通信、电子战全方向（MATLAB+Python）

✅ 专属科研辅导：论文专利选题/仿真/写作、项目定制全程答疑

✅ 优质社群资源：985/211硕博同行交流，最新技术干货实时同步

资源获取通道

知识星球（全部资源无限看）：https://wx.zsxq.com/group/15554455154582

面包多（单个代码精准购）：https://mbd.pub/o/EWFrontier/work

辅导/答疑：

‍客服微信： EWFrontier

认知雷达新突破：POMDP驱动的大规模MIMO，在未知干扰中同时检测与跟踪目标

当雷达不再预设噪声分布，而是像智能体一样主动“思考”该往哪个方向发射能量——即使干扰统计完全未知，依然能稳定跟踪高速目标。

摘要

传统雷达通常假定噪声服从已知分布（如高斯白噪声），但在实际战场、城市低空等复杂环境中，干扰往往是非高斯、非平稳、未知统计的。为了应对这一挑战，认知雷达应运而生——它能根据环境反馈动态调整发射波形。然而，现有认知雷达算法要么需要已知干扰统计，要么只解决检测问题而忽略跟踪，要么依赖离线训练的数据集（难以覆盖所有场景）。

本文提出了一种全新的解决思路：将大规模MIMO（MMIMO）雷达的检测‑跟踪联合问题建模为部分可观测马尔可夫决策过程（POMDP）。利用MMIMO雷达的“海量虚拟通道”带来的鲁棒性——即使干扰分布未知，也能保证恒虚警率（CFAR）——再结合在线规划算法POMCP（部分可观测蒙特卡洛规划），雷达可以像智能体一样，基于历史观测实时选择最优的发射角度（即波形矩阵），同时估计目标位置和速度。

关键创新在于：

无需任何干扰先验知识：通过MMIMO的渐近理论构造了一个黑箱生成器，替代了传统POMDP所需的已知观测概率模型。
联合检测与跟踪：奖励函数设计为“预测到目标所在角度”，驱动雷达主动追逐目标。
完全在线：不需要离线训练数据集，适应性极强。
超越SARSA：在与传统强化学习算法（SARSA）的对比中，POMCP在低信噪比、高速目标场景下检测率提升超过3倍。

仿真结果表明，在目标信噪比低至-20dB、速度高达350m/s的情况下，POMCP仍能将检测概率维持在0.8以上，而传统粒子滤波和SARSA均快速失效。

一、引言：为什么认知雷达需要“未知干扰”下的鲁棒性？

1.1 从“已知”到“未知”的跨越

传统雷达设计通常假设干扰（噪声、杂波）服从已知的概率分布（最常见的是高斯白噪声）。这一假设使得我们可以设计出奈曼‑皮尔逊准则下的最优检测器，例如匹配滤波。然而，在实际环境中，干扰可能是由人为干扰、非均匀杂波、间歇性脉冲等导致的非高斯、时空相关、统计未知的信号。如果模型错误，检测性能会严重下降，虚警率失控。

认知雷达的提出正是为了解决这一问题：雷达通过主动感知环境、调整波形，获得更好的检测和跟踪性能。但大多数认知雷达方案要么仍假设已知干扰模型（如贝叶斯方法），要么只优化检测而忽略跟踪，要么需要大量离线训练数据（例如深度强化学习）——在雷达领域，收集所有可能的环境和轨迹数据是不现实的。

1.2 大规模MIMO雷达的独特优势

大规模MIMO雷达（MMIMO）配备了大量发射和接收天线，形成数以千计的虚拟通道。近年来的理论发现：即使干扰的精确分布未知，只要其自相关函数以多项式速率衰减，那么基于MMIMO的Wald型检测器的检验统计量渐近服从卡方分布，从而可以设定**恒虚警率（CFAR）**的阈值。这意味着检测器本身是“分布未知鲁棒”的。

但是，这个检测器只能给出“有无目标”的二元决策，以及一个对目标功率的估计。它无法自动最大化检测概率，也无法跟踪目标的运动。因此，需要更高层的决策策略来指导雷达下一步该“看”哪个方向。

1.3 现存方案的不足与POMDP的引入

SARSA算法：将波形选择建模为马尔可夫决策过程（MDP），假设状态完全可观测。但实际中雷达只能通过有噪观测推断目标位置，状态是部分可观测的。SARSA在目标静止或慢速时有效，但在高速动态场景下性能急剧下降。
粒子滤波+固定策略：仅做状态估计，不做动作优化，容易丢失目标。
深度强化学习（DRQN等）：需要大量离线训练数据，且对环境变化敏感。

**部分可观测马尔可夫决策过程（POMDP）**天然适合雷达跟踪问题：目标的位置和速度是隐藏状态（不可直接观测），雷达只能获得来自检测器的观测（检测或未检测，以及目标功率的估计）。POMDP的在线求解器（如POMCP）可以在线规划，无需预先知道转移概率和观测概率——这正是本文的核心思想。

二、系统模型与问题形式化

2.1 MMIMO雷达信号模型

考虑一个共址MIMO雷达，发射天线数，接收天线数，虚拟通道数（典型值为10000）。雷达的视场离散化为个角度单元。

在时间步，雷达选择一个波形矩阵，该矩阵由优化问题(3)的解给出：为了将能量聚焦到某个角度，取的平方根。这就是雷达的动作：选择角度 bin。

接收信号模型：

其中是未知分布的干扰，是由动作和导向矢量决定的已知向量，是目标复散射系数（与距离平方成反比）。

2.2 鲁棒Wald检测器及其渐近分布

文献提出了如下的检验统计量：

其中是的估计，是干扰协方差的估计。关键结论：

在下，（中心卡方），因此可以设定阈值来保证恒虚警。
在下，，非中心参数与目标功率、波形、干扰协方差有关。

由此，检测概率可由 Marcum Q 函数近似。

2.3 将认知雷达建模为POMDP

我们将问题映射到POMDP的六个要素：

状态：目标的位置和速度，即。状态转移遵循线性高斯模型（匀速运动加过程噪声）。
动作：选择角度 bin，相当于选择下一个波形。
观测：如果检测发生（），则观测到（连续值），否则观测为空。为了离散化，设定一个离散化步长，将连续观测映射到离散区间。
观测概率：未知！因为干扰分布未知。这正是传统POMDP难以直接应用的原因。
转移概率：由目标运动学决定，不依赖于动作。
奖励函数：如果雷达选择的动作角度与目标下一时刻的真实角度相同，则奖励为1，否则为0。这鼓励雷达主动追逐目标。

三、方法核心：用生成器替代未知观测模型

3.1 传统POMCP的假设

POMCP是一个著名的在线POMDP规划算法，它通过蒙特卡洛树搜索模拟未来的动作-观测轨迹来估计当前状态的值。它假设我们可以调用一个黑箱生成器，其中采样自转移分布，采样自观测分布。然而，我们不知道观测分布的具体形式。

3.2 利用渐近理论构造生成器

为了解决这个难题，本文巧妙地利用了MMIMO雷达渐近结果：

从(23)可知，估计的目标功率围绕真值呈渐近高斯分布，方差可以通过数据估计。
因此，生成器（Algorithm 3）可以：

根据当前状态和动作（即选定的角度 bin），按照运动模型预测下一状态。
计算目标真实角度和真实 RCS。
生成带高斯噪声的。
计算检验统计量，并与阈值比较决定是否检测到。
如果检测到且角度匹配，则输出观测（离散化后）。
奖励为1若预测角度正确，否则0。

关键点：这个生成器不依赖于干扰的真实分布，只依赖从数据中估计的和渐近性质。因此，即使真实干扰未知，我们仍然可以运行POMCP进行在线规划。

3.3 联合粒子滤波与POMCP

POMCP在树搜索内部需要维护信念（belief）——即目标状态的后验分布。本文采用无权重粒子滤波（每个粒子权重视为相等），粒子集大小为。每个时间步：

1
用当前粒子集近似信念。
2
运行POMCP（次模拟），从根节点开始，使用生成器进行模拟展开，最终选择最优动作。
3
执行该动作，获得真实回波信号，计算出真实观测（实际系统运行时的观测，由真实干扰产生）。
4
更新信念：利用粒子滤波，对每个粒子用生成器模拟一步，只保留那些模拟出的观测与真实观测一致的粒子。重复直到填满新的粒子集。

这个过程中，POMCP用于选择动作，粒子滤波用于状态估计，两者共享同一个生成器。

四、仿真验证与性能对比

4.1 实验设置

虚拟通道数，角度单元，总功率，虚警率。
干扰模型：6阶自回归过程，创新分布为分布（，重尾非高斯），系数均为复数，模拟高度非平稳、非高斯干扰。
两个典型场景：
- 慢速目标
  ：初始位置 (60km, -60km)，速度 (0.2km/s, 0.2km/s)，过程噪声，SNR平均约 -17dB 逐渐降至 -18dB。
- 快速目标
  ：速度 (0.35km/s, 0.35km/s)，噪声，SNR从 -17dB 降至 -20dB。

对比算法：Oracle（预知未来角度，作为性能上界）、粒子滤波（无规划，固定动作）、SARSA（之前 RL 方法）、正交波形（无波形优化）。

4.2 结果分析

图3、4（慢速目标）：

粒子滤波的位置RMSE随时间迅速增大（目标丢失）。
POMCP的RMSE与Oracle非常接近，始终保持在5km以内。
速度估计方面，POMCP初始偏差较大，但随着观测累积快速收敛。

图5（检测概率，慢速目标）：

正交波形：始终低于0.2。
SARSA：小幅提升，但仍低于0.4。
粒子滤波：初期勉强维持，但约30步后跌至0.2以下。
POMCP：在100步内维持在0.8以上，接近Oracle。

图7、8、9（快速目标）：

趋势相似，但所有算法性能略有下降（SNR更低）。
POMCP仍然保持，而SARSA和粒子滤波几乎降至0。

图10（树深度影响）：

深度2比深度5在大多数情况下更好或相当。原因是：生成器的近似偏差随模拟步数增加而累积，浅层树更依赖真实观测修正。

图11（动作分析）：

POMCP选择的动作与最优动作（目标真实角度）高度一致，说明算法真正学会了“追逐”目标。

五、结论与研究启发

5.1 论文贡献总结

1
首个将POMCP用于MMIMO雷达联合检测‑跟踪的工作，并且不依赖干扰先验知识。
2
通过生成器设计巧妙绕过了观测模型未知的障碍，利用MMIMO的渐近统计特性实现可计算的在线规划。
3
在极端非高斯、低SNR、高速运动条件下，检测概率比SARSA高3倍以上，跟踪精度接近Oracle。

5.2 给研究者的三点启发

启发一：认知雷达的“在线”属性远比“离线训练”更实用雷达部署环境千变万化，几乎不可能预先收集所有可能的干扰和轨迹数据集。POMCP方法完全在线，不需要训练阶段，而且能自适应环境变化。相比之下，深度强化学习虽然强大，但在雷达领域的实际落地受限于数据获取。这提示我们：在传感器领域，无模型在线规划算法可能比数据驱动的黑箱方法更具生命力。

启发二：“部分可观测”是雷达的常态，应被显式建模许多雷达跟踪研究将问题简化为MDP（假设状态完全已知），但实际中雷达只能通过回波间接推测目标状态。本文显式地将目标状态作为隐藏变量，用POMDP处理，并用粒子滤波维护信念。这种信念驱动的决策方式比直接最大化瞬时检测概率更鲁棒——因为它考虑了不确定性。

启发三：领域知识与渐近理论可以“替代”复杂概率模型POMDP通常要求已知观测概率，而这在雷达中往往未知。本文没有试图估计干扰分布，而是利用MMIMO的大数定律构造了一个可采样的生成器。这种思路可以推广到其他高维、渐近高斯的传感器问题中：只要我们能渐近地逼近后验采样，就可以用在线规划求解。

5.3 未来展望

多目标扩展：当前版本假设单目标。多目标需要更大的状态空间和更复杂的信念表示，可能结合动态贝叶斯网络。
超参数自适应：POMCP中的UCB系数、树深度、粒子数等目前通过试探设定，未来可以设计自适应调整机制。
实际硬件验证：仿真中用了重尾AR模型，下一步应在真实MMIMO雷达平台上测试。

参考文献

[1] I. Bouhou et al., "POMDP-Driven Cognitive Massive MIMO Radar: Joint Target Detection-Tracking In Unknown Disturbances," arXiv:2410.17967v2, 2025.

[2] S. Fortunati et al., "Massive MIMO radar for target detection," IEEE TSP, 2020.

[3] A. M. Ahmed et al., "A reinforcement learning based approach for multi-target detection in massive MIMO radar," IEEE TAES, 2021.

[4] D. Silver and J. Veness, "Monte-Carlo planning in large POMDPs," NIPS 2010.

结语：认知雷达的本质是“感知‑行动‑学习”的闭环。本文展示的POMCP框架，不仅让雷达在完全未知的干扰环境中“存活”下来，而且实现了近乎最优的检测跟踪性能。这种将统计信号处理与在线强化学习深度融合的思路，值得每一位从事雷达、感知或机器人领域的研究者深思。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.