TKDE | 中科大提出RiskSeq：第一项针对时空多粒度城市交通风险预测的工作|欧氏|稀疏性|细粒度

分享至

作者 | 周正阳

编辑 | 青暮

本文是中国科学技术大学-数据智能团队最近被IEEE TKDE（当今数据挖掘领域顶级期刊）接受的论文“Foresee Urban Sparse Traffic Accidents: A Spatiotemporal Multi-Granularity Perspective”的解读，由论文一作周正阳撰写。

交通事故已成为最大的公共卫生威胁之一，据世界卫生组织（WHO）的全球状况报告，全世界约有125 万人死于交通事故，WHO 已经将其列为人类第 9 大健康威胁。

因此，如果我们能精确地预测城市交通事故的分布，就能提高交通警察的警力分配效率和公共资源分配的精准性、公平性，进而减少道路交通伤害、确保城市公共安全。

现有的交通事故预测任务大多分为长期预测和短期预测，前者是预测下一周每日的事故总数，形成事故风险图，但空间尺度是固定的；后者是预测1小时后的事故总数，只有单步预测，缺点是不能感知到路网未来多步的实时变化。

长期预测方式对于实时智能交通系统作用甚微，因此本文着眼实时系统，研究短期交通事故预测。

本文提出了一个新颖的统一框架RiskSeq，实现了空间上多尺度（粒度）预测、时间上多步预测，这将对不同层级的交通管理部门调度工作、以及不同出行需求的市民更有价值。

在本文中，我们总结了交通预测中典型的两种数据稀疏性问题，并分别采用新颖的策略进行缓解。

从产生的源头和场景上，稀疏问题可以划分为本质稀疏和伪稀疏。本质稀疏指的是本身具有少量标签且难以生成新的有效标签的问题，如交通事故、城市的各类事件、极端天气等，该类信息无法通过学习的方法增大数据量，只能进行一定的数据变换。

伪稀疏指的是数据本身存在，因为外界原因而未被感知或探测，如处处存在的交通流量、速度信息、天气信息，由于传感器布置的昂贵代价而不能采集到所有区域，该类数据可以通过捕获其时空模型进行数据增强和推断。

在缓解稀疏问题之后，我们设计了DT-GCN，通过捕获城市交通的短期变化来增强时间敏感的图表示，其设计受到了交通事故特点和事故相关的交通模式的启发；我们还设计了CG-LSTM，以实现多尺度和多时间步预测。

在两个真实数据集上的实验结果证明了我们所提出的包含DT-GCN和CG-LSTM集成结构的RiskSeq框架的优越性。并且，这也是第一项针对时空多粒度城市交通风险预测的工作。

模型概述

如图1所示，针对稀疏性和时空多粒度预测，模型分为三个阶段解决问题，即数据预处理阶段，空间建模阶段和时间序列建模阶段。

在数据预处理阶段，我们将路网数据划分为层次性的结构，即每一个在路网中的网格都作为一个小节点，地理上相邻的小节点又组成一个中等的矩形区域，从而模型在学习过程中可有效利用这两个粒度的信息进行协同预测。

我们还提出了基于先验知识的数据增强策略（Prior Knowledge-basedData Enhancement, PKDE）和基于时空协同感知动态预测模型（ST co-sensing）来分别解决本质稀疏带来的零膨胀问题（大量数据的label为0，导致神经网络训练过程中趋向于将所有值归为0），和时空感知中的伪稀疏问题。

空间建模阶段分别抽取两个空间尺度信息，且在细粒度空间建模中提出差分时变图卷积网络（DT-GCN）来捕获空间的动态关联、提升模型对短时流量变化的敏感性。

在时间序列建模阶段，我们创新性地提出了基于上下文引导的LSTM解码器，输入两个空间尺度的事故风险特征序列，通过风险分配和风险聚合层来关联粗细粒度的事故信息，从而传递两者的交互影响。最后利用模型输出的多粒度的风险信息，进行联合筛选事故高风险区域，得到最终结果。

数据预处理

城市的层次性划分

深度学习中，稀疏的数据往往很难学习，而越连续、丰富的数据的内在规律越容易被学习。所以我们按如图2所示的方式划分城市区域，小区域称作小方形子区域，中等的方形被称作中等矩形区域。中等矩形区域中的事故大多不为0，因此可缓解零膨胀问题。

缓解两类稀疏挑战

针对本质稀疏，我们提出了一种基于数据集先验信息的增强方法，核心思想是将数据离散化为一个负数，用这个负数替代训练过程中风险值为0的区域label。

负数值意味该区域未发生事故，对数化后可差别化不同区域的区域且保持各区域潜在风险排序不发生变化，而这个排序表示即使未发生事故，平时发生事故越多的区域，在一个未知的时刻其事故风险也相对越高。

事实上，将label进行替换的方式与设计loss具有相似的效果，因为替换后模型将按照现有的label来计算loss。

针对伪稀疏，我们设计了一种基于ST-DFM的协同感知策略。其思想是利用各种额外信息，对缺失的动态信息进行相互推断，使得模型获得的信息最大化。即知晓了本区域与邻近区域速度信息，基于天气、区域和时间戳和速度，进行流量信息的推断，对应地，可再训练用于基于流量和额外信息的速度推断模型。

基于DT-GCN的时空编码器

我们提出了差分时变图卷积神经网络来对交通流和事故的时空信息进行编码。基于交通事故发生模型的两点观察：

（1）交通事故和道路拥堵存在一定的交互影响和传播关系。一方面，拥堵会造成车辆频繁超车从而导致交通事故，另一方面，发生交通事故后往往会堵塞道路，导致车辆排队，进而增加交通事故发生的风险，事故风险由当前的事故点/拥堵点不断向拥堵方向传播扩散。

（2）相似的路网结构和相似的动态交通模式易产生事故共现。三叉路口、四岔路口等交通枢纽处的路况往往车流量较为集中，且存在变道转弯频繁的现象，易造成事故，当城市处于同一天气下，这些地区的事故风险会同时增加，然而由于不同的地区交通模式不同，其事故风险的增加量各不相同，故需要一种方式去量化在不同条件下不同路段（区域）交通事故风险的变化。然而这种关联可能并不是在欧氏关系上的相邻或邻近，而是存在地理空间远距离、语义空间近距离的相似特性，即非欧氏关联。

基于以上两点考虑，考虑到GCN可基于灵活设计的邻接矩阵（亲和度矩阵）来建模非欧氏关系，我们提出了一GCN的变体差分时变图卷积网络（Differential Time-varying Graph neural Network, DT-GCN）并针对观察特征与挑战重新从以下两个方面设计了适合事故预测的DT-GCN：

（1）【时变图网络】由于区域之间因潮汐车流等原因产生的会随时间变化的不同关联程度，因此，我们考虑三个方面的特性：静态相似性、邻近的时变动态信息（流量速度等）、区域间的OD流量转移信息，依此来构建时变的亲和度矩阵。

（2）【差分图网络】对于同一区域，相邻时间间隔内交通基础元素的数值变化对交通事故的影响（贡献）。与常规交通预测问题（基础元素）相比，事故或事件预测的任务与城市交通状况的异常变化更为相关。为此，我们引入了差分特征生成器来计算同一区域在相邻时间间隔内的动态流量和速度的差分值。通过将差分动态交通特征输入到GCN中，可以对交通异常变化及其传播特性与事故直接进行关联性学习，可让模型更敏感于路网交通状态的短期变化，有利于短期多步风险预测。

图3 DT-GCN的实现细节

基于Context-Guided LSTM的时空解码器 (CG-LSTM)

我们选取了NYC中三个代表性区域，并将其雨天与非雨天的事故数进行了统计，如图4所示。我们发现，第一、二两个区域的交通事故数受天气影响较大（敏感于天气变化），而区域三受天气影响较小，因此天气等上下文信息对不同区域的影响是空间异质的。

此外，每一个时间步当中，应当包含时间戳信息，因为不同的时间戳下所产生事故风险的大小也不尽相同，如高峰期所对应的时间戳的事故风险较大，尤其是在未来较长时间的多步预测中。

因此，基于以上观察，本文设计了一个上下文引导的LSTM时间序列预测模型，将每一个时间步的上下文信息（时间戳和天气等）引入到解码器的LSTM中。

另一方面，为实现空间多尺度预测并缓解零膨胀问题，使得网络能够顺利训练并获得预想的结果，我们利用两个并行的LSTM，C-LSTM和F-LSTM来同时学习空间粗粒度风险和细粒度风险在时间上的依赖关系。

进一步地，我们设计了风险分配层将中间媒介层（C-LSTM）的信息分别传播到细粒度risk feature map，和风险聚合层来聚合事故风险到全城级别（citywide-level），这样我们就可以得到三个空间粒度的多步预测信息。以更易学习的C-LSTM作为媒介和引导，可以使得我们的模型更容易学习、细粒度风险学习更准确。

对于以上三个空间粒度，细粒度为每个节点的风险值（零值利用PKDE的计算值替代），粗粒度为对应节点细粒度风险值的和，全城的事故风险总值为当前时间间隔内事故发生总数。

模型总结：CG-LSTM从层次性的LSTM序列建模和逐步输入上下文信息引导中间粒度事故风险预测两个层面拓展了LSTM模型，缓解了LSTM在中长期预测中存在的误差增大、稀疏事件预测难的挑战。

基于多粒度风险预测的高风险区域筛选

为了选择最可能发生的事故子区域，我们设计了一种自适应高风险区域选择机制。具体来说，风险聚合与分配网络可学习多尺度空间风险分布的空间依赖、充分吸收层次相关性。对于某段时间内，我们将学习得到的总和风险作为全市范围的风险指标，并将高风险子区域个数的自适应阈值设为总和风险的函数。

高风险子区域个数的自适应阈值受时间、上下文因素、路网状态等影响动态地进行调整（更敏感于上下文变化），可减少区域数量过度预测。

实验

评估指标

回归视角采用MSE，分类视角采用ranking后选取Top-K的方式。

模型横向对比

如图6所示，和其他baseline对比，我们的模型在NYC和SIP数据集上分别达到56.42%和71.27%的准确率。

多时间步预测对比

将模型和具有多步预测能力的时空模型Baseline相比，如图7所示，RiskSeq具有更高的准确率，且预测能力平稳。

模型纵向对比-消融实验

设计如下5个消融模块：

RS-OA: 将动态亲和度矩阵替换成仅由路网结构特征计算的静态亲和度矩阵；
RS-DG: 移除差分值生成器模块；
RS-RC: 移除DT-GCN中的残差模块；
RS-CF: 在CG-LSTM中仅使用多个LSTM预测，而不将上下文信息逐步输入LSTM的隐层中；
RS-CGLSTM: 使用普通的LSTM代替CG-LSTM。

实验结果如图8所示，表明这5个消融变量都对预测精度有贡献。

结论

RiskSeq的一般适用性

RiskSeq的核心思想是动态聚合邻域图信号以获得更好的风险表示，并通过采用逐步上下文注入和多尺度的时间序列学习来增强多步事故风险预测。

除了对事故预测的良好表现，我们的工作还可能使时空预测中的其他下游任务受益。犯罪和流行病与交通事故具有相似的性质，其偶尔发生并表现出时变的空间依赖和人员流动模式。因此可基于ST-DFM和城市协变量缓解数据不足，再通过PKDE缓解事件本质稀疏问题，从而得到适合RiskSeq训练的数据。与人类活动有关的数据以及特定于任务的历史记录被输入到DT-GCN中，以捕获时变和异常情况，并使用CG-LSTM解码器增强多步预测。

RiskSeq提供的新颖见解

针对两个不可避免的稀疏场景，我们通过提出新颖的策略来解决本质稀疏和伪稀疏问题。我们将稀疏事件预测转换为可通过DNN解决的可学习的回归和排序任务，为研究人员从稀疏性起源的角度挖掘时空稀疏数据集中的潜在相关性提供新视角，鼓励使用新颖的稀疏性划分（例如网络中的节点和边缘稀疏）和一定的新操作、问题转换方法来解决各种稀疏场景问题。这些相关研究最终可能会解决推荐系统、故障检测和社会检测等领域中具有稀疏挑战的任务。

更多细节

文章更多细节烦请阅读全文，文章链接：https://ieeexplore.ieee.org/document/9242313

目前我们已经将整理好的NYC交通事故数据集文件和训练、部分数据处理代码开源，可在tensorflow环境下进行测试，敬请移步Github: https://github.com/zzyy0929/Codes-for-RiskSeq-TKDE

纳新

数据智能团队负责人汪炀主页：http://staff.ustc.edu.cn/~angyan/

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.