DENG Hanyou,CHEN Hongmei,XIAO Qing,et al.Dynamic graph convolution network with multi-head attention for traffic flow prediction[J].Journal of Taiyuan University of Technology,2024,55(1):172-183.
随着人们日常出行的增加,交通流预测对于城市交通系统有效运行和管理至关重要。交通流预测包括很多种类,例如,各个路口的车流量预测,车流量的准确预测不仅有利于缓解道路拥堵,而且有助于交通路网的管理决策;又如,各个地铁口的人流量预测,人流量的准确预测有助于管理者采取有效措施、提升运作效率、提高服务质量。
早期的交通流预测主要采用经典统计方法,如向量自回归法、历史平均法等,这类方法要求序列满足平稳性假设,并且其中的参数设置依赖于专业领域的知识。随着深度学习的蓬勃发展,在交通流预测中,卷积神经网络(CNN)、循环神经网络(RNN)、图卷积神经网络(GCNN)等被用于提取高阶时空依赖[1-2]。例如,LI et al[1]将RNN与扩散卷积相结合,提出DCRNN模型,利用该模型可准确捕捉交通流的时间特征和空间特征。WU et al[2]将CNN与扩散卷积相结合,使用自适应邻接矩阵增强扩散卷积,可捕捉到学习路段之间存在的空间关联。上述模型没有考虑交通网络的动态变化,因此PARK et al[3]提出ST-GRAT模型,利用Transformer[4]多头自注意力捕获非线性时间关联,同时利用编码器-解码器交叉注意层模拟每个历史时间步和预测每个未来时间步的交互。ZHENG et al[5]采用编码器-解码器转换注意力将编码的每个历史时间步和预测的每个未来时间步进行关联,以缓解预测时间步之间的错误传播问题。LIU et al[6]提出交互动态图卷积网络IDGCN,利用动态图卷积网络交互学习交通流子序列的时空依赖,捕捉交通网络中的动态时空关联。
然而,交通网络的动态变化,不仅体现在时空维度上路段或路口的流量随着时间变化而变化,还体现在空间维度上邻近路段或路口的流量相互影响。例如,交通流量在早晚上下班时间达到高峰,而一条路段的拥堵会引起相邻路段交通流量的变化。因此,在交通流预测中,不仅需要捕捉不同路段或路口交通流量的时空特征,还要学习它们的动态时空关联。本文利用Transformer多头注意力机制(multi-head attention)[4]能从多个角度学习时序相关性的优点以及交互动态图卷积网络(interactive dynamic graph convolution network)[6]可学习相邻节点时空相关性的优点,基于Transformer框架,提出多头注意力动态图卷积网络(dynamic graph convolution network with multi-head attention,DGCNMA),捕捉交通网络的时空相关性,对交通流进行短时预测。本文的主要贡献如下:
1) 引入图卷积网络学习交通流序列的空间嵌入并融入交通流序列,从而可采用多头注意力机制从多个角度同时捕捉交通流序列的时间相关性和空间相关性。
2) 引入交互动态图卷积网络,通过卷积网络和动态图卷积网络交互学习以及交通流奇偶子序列特征交互融合,同时学习交通流序列的局部时空相关性和全局时空相关性。
3) 在高速公路交通流数据集(PEMS03、PEMS04、PEMS08)和地铁人群流量数据集(HZME inflow and HZME outflow)上的大量实验表明,与基线模型相比,本文所提出的DGCNMA模型具有更好的预测性能。
由于交通流量分析在智能交通系统和公共安全领域的普遍应用,因此交通流预测引起了研究者的兴趣。对交通流预测的研究方法可以分为3类:经典时间序列分析方法、传统机器学习方法和深度学习方法。
经典时间序列分析方法包括向量自回归模型(VAR)[7]和整合移动平均自回归模型(ARIMA)[8]等。这些方法根据历史数据预测未来趋势,未充分考虑时空关联及变化。
SVR[9]和SVM[10]是传统机器学习方法的代表,它们采用核函数将低维非线性交通数据映射到高维空间,以描述交通数据的非平稳变化,从而能够处理复杂的非线性关系,然而核函数的选择对预测结果影响很大,此外这类方法也没有充分考虑交通流量的时空相关性。
近年来,深度学习在表示学习或自动特征提取方面的成功,推动了基于深度学习的交通流预测方法的研究。基于卷积神经网络(CNN),WU et al[2]将CNN与扩散卷积相结合,使用自适应邻接矩阵增强扩散卷积,学习路段之间存在的空间关联;ZHANG et al[11]设计了时空残差网络ST-ResNet预测未来时段的交通流量。这类方法将相邻时间流量简单地视为多个通道,因此经过卷积后就会丢失时间维度信息。基于递归神经网络(RNNs),LI et al[1]提出扩散卷积递归神经网络DCRNN将交通流的动态变化建模为扩散过程,并提出扩散卷积操作来捕获空间依赖性;ZHAO et al[12]将GCN和GRU结合,提出时序图卷积网络T-GCN,GCN用于学习复杂的拓扑结构以捕获空间依赖性,而GRU用于学习交通数据的动态变化以捕获时间依赖性。这类方法在训练过程中存在梯度爆炸与消失的缺陷。基于长短时期记忆神经网络(LSTM)[13],CAI et al[14]提出一种用于交通流预测的噪声免疫长短期记忆网络NiLSTM,以捕获交通路段的长时依赖,但是循环结构无法建模超长序列。基于时间卷积网络(TCN);WU et al[2]提出一种图神经网络框架Graph-WaveNet,通过节点嵌入学习自适应依赖矩阵,以捕获数据中隐藏的空间依赖,WU et al[15]提出用于多元时间序列预测的图神经网络MTGNN。这些方法不能充分捕获动态时空关联。基于图卷积(GCN),LI et al[16]提出扩散卷积递归神经网络DGCRN,以适应交通网络的拓扑结构,从而更好地捕捉交通流的时空特性和复杂关系;LIU et al[6]提出交互动态图卷积网络IDGCN,利用动态图卷积网络交互学习交通流子序列的时空依赖,以捕捉交通网络中的动态时空关联;仇江辰等[17]设计了一种时变多参数的自适应迭代学习辨识策略,利用迭代学习辨识策略将参数辨识问题转化为最优跟踪控制问题;SONG et al[18]提出时空同步图卷积网络STSGCN,通过考虑局部时空关系提取时间邻近特征。基于注意力机制,GUO et al[19]提出利用时空注意力提升预测精度的ASTGCN模型。结合GNN,GUO et al[20]进一步扩展ASTGCN模型,提出ASTGNN模型。
本文利用Transformer多头注意力机制[4]和交互动态图卷积网络[6]在学习时空相关性方面的优势,在Transformer框架中引入图卷积网络和交互动态图卷积网络,提出多头注意力动态图卷积网络(dynamic graph convolution network with multi-head attention,DGCNMA),以更好地捕捉交通网络的时空相关性,对交通流进行短时预测。
定义1(交通网络)交通网络是一个图G=(V,E),其中节点集V中每个节点代表一个交通传感器,边集E中每条有向边代表两个传感器间的有向路段。交通网络G的邻接矩阵A如式(1)所示。
(1)
定义2(交通流量) 给定交通网络G中的一个传感器vi和一个时间步长t,传感器vi在时间步长t的交通流量是在时间t内经过传感器vi的车辆数量。
定义3(交通流序列)给定一个交通网络G和一个时间步长集T,交通流序列X,如式(2)所示。
X=[X1,…,Xt,…,X|T|] .
(2)
式中,代表交通网络G中所有传感器在时间步长t∈T的交通流量,X∈R|V|×|T|.
问题定义给定交通网络G在历史时间T上的交通流序列X=[X1,…,Xt,…,X|T|],交通流预测旨在预测未来时间T′上的交通流序列X′=[X|T|+1,…,X|T|+t,…,X|T|+|T′|],其形式化定义如式(3)所示。
[X|T|+1,…,X|T|+t,…,X|T|+|T′|]=F([X1,…,Xt,…,X|T|]).
(3)
式中,F是需要学习的预测函数。
在交通网络中,部署在不同空间位置的传感器的交通流量不仅会随时间动态变化,而且这些传感器的交通流量之间也会相互影响。为了更好地捕捉交通流序列中各个传感器之间的时空相关性,以便更好地预测交通流,本文在Transformer框架[4]中引入图卷积网络GCN和交互动态图卷积网络IDGCN[6],提出如图1所示的多头注意力动态图卷积网络DGCNMA(dynamic graph convolution network with multi-head attention).
图1 多头注意力动态图卷积网络框架
Fig.1 Framework of dynamic graph convolution network with multi-head attention
DGCNMA模型主要包括多个堆叠的编码器Encoder和多个堆叠的解码器Decoder.交通流序列输入编码器和解码器之前,DGCNMA模型设计时间嵌入层Temporal Embedding和空间嵌入层Spatial Embedding分别融入交通流序列中不同时间交通网络流量的时序关系以及交通网络中不同传感器的空间关系。在每个编码器和解码器中,DGCNMA模型首先采用多头注意力机制Multi-head Attention从多个角度捕捉交通流序列中交通网络流量的时空相关性,然后采用交互动态图卷积网络IDGCN进一步从子序列交互学习交通流序列中交通网络流量的时空相关性。
Transformer模型[4]采用位置编码方法Position Encoding将序列数据的时序信息融入语义信息,采用多头注意力机制Multi-head Attention在不同子空间中学习序列数据不同角度的相关关系,从而更好地表示序列数据。在交通流预测中,DGCNMA模型利用Transformer的位置编码方法和多头注意力机制,设计了相应的时间嵌入层Temporal Embedding和多头注意力层Multi-head Attention,分别学习交通流序列中不同时间交通网络流量的时序关系以及交通流序列中交通网络流量不同角度的时间相关性。为了在学习过程中融入交通网络中不同传感器的空间关系,DGCNMA模型设计了空间嵌入层Spatial Embedding.
3.2.1时间嵌入层和空间嵌入层
时间嵌入层Temporal Embedding采用Transformer的位置编码方法,为交通流序列X中的每个时间步长t的交通网络流量Xt学习其时序位置嵌入向量,得到时间嵌入矩阵ET∈R|V|×|T|.空间嵌入层Spatial Embedding引入一个L层图卷积网络GCN_L,利用交通网络的邻接矩阵A,为交通流序列X中的每个传感器vi学习其空间位置嵌入向量,得到空间嵌入矩阵ES∈R|V|×|T|,GCN_L的计算如式(4)所示。
(4)
式中:是单位矩阵,
是
的度矩阵, 经过L层图卷积网络GCN_L后,得到空间位置嵌入矩阵ES∈R|V|×|T|.
交通流序列输入编码器和解码器之前,通过时间嵌入矩阵ET和空间嵌入矩阵ES与交通流序列X相加,将时空信息融入交通流序列X,一起传入DGCNMA模型。
3.2.2多头注意力层
多头注意力层Multi-head Attention采用Transformer的多头注意力机制,学习交通流序列X中交通网络流量Xt不同角度的时空相关性,具体过程如式(5)-式(7)所示。
MultiHead(Q,K,V)=Concat(head1,head2,…headh)Wo.
(5)
(6)
式中,Q=K=V=XT∈R|T|×|V|,Wo∈Rhd×|V|和是可学习参数矩阵,h是注意力头数,d是特征维度。
得到多头注意力之后,增加残差以缓解梯度消失及过拟合问题,得到多头注意力层输出的交通流序列表示OA,如式(7)所示。
OA=XTWr+MultiHead(Q,K,V) .
(7)
式中,Wr∈R|V|×|V|是可学习参数矩阵。
为了进一步学习交通流序列中交通网络流量的时空相关性,DGCNMA模型替换Transformer编码器和解码器中的前馈网络FFN,采用图2所示的交互动态图卷积网络IDGCN[6],通过卷积网络CNN和动态图卷积网络DGCN,从子序列交互学习交通流序列中交通网络流量的时空相关性。
图2 交互动态图卷积网络模块
Fig.2 Interactive dynamic graph convolution network module
IDGCN模块的学习策略包含两个方面的交互学习:1) 通过下采样,将多头注意力层输出的交通流序列表示OA按时间分组的奇偶性划分为奇序列和偶序列
两个子序列,分别学习两个子序列特征,再将两子序列特征交互融合,获取交通流序列表示。子序列的交互融合,不仅保持了原序列的大部分信息,而且通过增大时间步长扩大了感受野,提升了学习效果。2) 在学习交通流(子)序列特征表示的过程中,先采用卷积网络CNN再采用动态图卷积网络DGCN进行交互学习,捕捉交通流(子)序列的时间局部信息和交通网络的空间结构信息。CNN和DGCN的交互学习,既可以分别聚焦交通流(子)序列的时间信息学习和空间信息学习两个任务,又可以通过两个学习任务共享知识和经验相互提升学习效果。
3.3.1子序列交互融合
首先,按4个时间步一组,将交通流序列进行分组,再通过下采样,将交通流序列表示OA按组的奇偶性划分为奇序列和偶序列
两个子序列,如式(8)所示。
(8)
式中:
类似的,分析交通流序列表示OA及其两个子序列和
的交通流分布情况[6],图3显示了HZME inflow数据集中26 d内交通流序列的分析结果,从图3中可以看到,两个子序列
和
保持了交通流序列表示OA大部分信息。
图3 HZME inflow上的交通流奇偶子序列分析
Fig.3 Traffic flow odd/Even subsequence analysis on HZME inflow
然后,采用卷积网络CNN和动态图卷积网络DGCN交互学习的方式,结合交通网邻接矩阵A,先分别学习两个子序列和
的特征
和
再交互融合两个子序列特征,得到交互融合后的两个子序列表示
和
计算过程如式(9)-式(12)所示。
(9)
(10)
(11)
(12)
式中,⊙表示哈达玛积操作。
最后,将两个子序列表示和
按组的奇偶性合并,得到交互动态图卷积网络输出的交通流序列表示Oc,如式(13)所示。
(13)
式中,
3.3.2卷积网络和图卷积网络交互学习
首先,采用卷积网络CNN学习交通流子序列特征的时空局部信息,计算过程如公式(14)所示。
Ocnn=CNN(Osub)=Tanh(Conv2(Conv1(Pad(Osub)))) .
(14)
式中:Ocnn∈R|V|×|T|/2,Pad对输入子序列特征Osub进行2D扩充,避免卷积操作导致子序列特征变小,Conv1和Conv2分别使用1×5和1×3的卷积核进行不同尺度感受野的信息捕捉。
然后,采用动态图卷积网络DGCN,融合交通流子序列特征Ocnn和交通网邻接矩阵A,共同学习交通网络的时空全局信息,计算过程如式(15)所示。
DGCN(Ocnn,A)=GCN_D(Ocnn,Af)+GCN_D(Ocnn,Ab)+GCN_D(Ocnn,Adyn)=
(15)
式中:GCN_D是扩散图卷积,K为扩散图卷积的扩散步长,Af=A/rowsum(A)∈R|V|×|V|,Ab=AT/rowsum(AT)∈R|V|×|V|分别是邻接矩阵A∈R|V|×|V|的前向转移矩阵和后向转移矩阵,Adyn∈R|V|×|V|是融合矩阵,计算过程如式(16)-(18)所示,分别是Af,Ab,Adyn的k次幂即k阶转移矩阵,Wf,Wb,Wdyn∈R|T|/2×|T|/2是可学习的参数矩阵。
Adyn=αAapt+(1-α)Alea.
(16)
Aapt=SoftMax(ReLU(SVG(A))) .
(17)
Alea=log(MLP(GCN_D(Ocnn,Aapt)))-OcnnWapt))-log(-log(g))/τ) .
(18)
式中:α是可学习参数,Aapt∈R|V|×|V|是邻接矩阵A∈R|V|×|V|通过奇异值分解SVG得到的自适应矩阵;Alea∈R|V|×|V|是通过多层感知机MLP和扩散图卷积融合交通流子序列特征Ocnn和自适应矩阵Aapt得到的生成矩阵;K为扩散图卷积的扩散步;是Aapt的k次幂即k阶转移矩阵,Wapt∈R|T|/2×|V|是可学习的参数矩阵,g~Gumbel(0,1)是随机变量,τ=0.5是温度参数。
在多头注意力动态图卷积网络DGCNMA中,编码器与解码器主要有如下差异:1) 编码器的输入是历史交通流序列[X1,…,X|T|],而解码器的输入是待预测交通流序列[X|T|+1,…],为了避免使用未来时刻的交通流进行预测,对待预测交通流序列[X|T|+1,…]进行了掩码Masked操作。2) 编码器的每个编码层都有一个多头注意力层,该多头注意力采用自注意力机制Self-Attention,即利用编码器的输入序列进行学习,而解码器的每个解码层有2个多头注意力层,第1个多头注意力层也采用自注意力机制Self-Attention,第2个多头注意力层采用交叉注意力机制Cross-Attention,即同时利用解码器的输入序列和编码器的输出序列进行学习。
为了验证本文所提模型DGCNMA的有效性,在两类真实数据集上进行了大量实验。
4.1.1数据集
实验选用了两类交通流数据集,数据集统计信息如表1所示。
表1 数据集描述
Table 1 Dataset description
数据集类型数据集传感器集边集时间范围Highwaytraffic flowPEMS033585472018-09-01-2018-11-30PEMS043073402018-01-01-2018-02-28PEMS081702952016-07-01-2016-08-31Metro crowd flowHZME inflow801682019-01-01-2019-01-26HZME outflow801682019-01-01-2019-01-26
第1类交通流数据集是加州高速公路交通流数据集[21],分别是采集于加州3个区PEMS03、PEMS04和PEMS08,这些数据集由Caltrans Performance Measurement System (PeMS)每30 s实时采集1次,并聚合成每5 min 1次的观测值,因此每1 h有12个观测值。第2类交通流数据集是杭州地铁人群流量数据集[22],包含入口流量数据集(HZME inflow)和出口流量数据集(HZME outflow),这些数据集每5 min聚合1次。
在实验中,数据集按照6∶2∶2的比例划分为训练集、验证集和测试集,并使用Min-Max方法将数据归一化到[-1,1]的范围内。模型采用反向自动微分和Adam算法进行优化,并使用过去1 h的交通流预测未来1 h的交通流。
4.1.2基线方法
本文选择了3大类基线方法,分别为经典时间序列分析方法、传统机器学习方法和深度学习方法。时间序列分析方法包含VAR[7],传统机器学习方法包含SVR[9],深度学习的方法包含LSTM[13]、DCRNN[1]、Graph WaveNet[2]、STGCN[23]、STSGCN[18]、ASTGCN[19]、ASTGNN[20]、STFGNN[24]、AGCRN[25].
1) VAR[7]:向量自回归是一种广泛使用的时间序列分析方法,用于建立多个时间序列之间的关系模型。
2) SVR[9]:支持向量回归是一种基于支持向量机(SVM)的回归方法,它能对具有非线性关系的数据进行回归分析。
3) LSTM[13]:长短时记忆网络在RNN模型的基础上通过增加门限(Gates)来解决RNN短期记忆的问题,使得循环神经网络能够真正有效地利用长距离的时序信息。
4) DCRNN[1]:扩散卷积循环神经网络通过基于图的扩散层和基于GRU的递归层预测交通流。
5) Graph WaveNet[2]:Graph WaveNet使用卷积神经网络学习节点之间的局部信息构建全局图表示。
6) STGCN[23]:时空图卷积网络主要由基于图卷积网络的特征提取层和时序预测层组成,用来解决交通域的时间序列预测问题。
7) STSGCN[18]:时空同步图卷积网络是通过多个局部时空图以同步捕获时空相关性的GCN模型。
8) ASTGCN[19]:基于注意力的时空图卷积网络通过设计空间和时间注意力捕获时空相关性。
9) ASTGNN[20]:基于注意力的时空图神经网络将时间趋势的自注意与动态GCN相结合预测交通流。
10) STFGNN[24]:时空融合图神经网络可以通过各种空间和时间图的新型融合操作有效地学习隐藏的时空依赖关系,并行处理不同的时间段。
11) AGCRN[25]:自适应图卷积递归网络是引入动态图结构学习以捕捉不同节点个性特性的NAPL-GCN.
4.1.3评估指标
采用3个度量指标来评估所有方法的性能,即平均绝对误差(MAE,式中表示为EMA)、均方根误差(RMSE,式中表示为ERMS)和平均绝对百分比误差(MAPE,式中表示为EMAP),它们的定义分别如式(19)-式(21)所示。
(19)
(20)
(21)
式中:N表示样本数量;Yi表示真实值;表示预测值。
4.1.4参数设置
DGCNMA模型采用的嵌入维数为64,注意力头数h为8,学习速率为0.001,其他设置如表2所示。
表2 DGCNMA模型的参数设置
Table 2 Parameter settings of DGCNMA model
数据集编码器层数/层解码器层数/层卷积核大小批量大小PEMS033338PEMS044438PEMS0855316HZME inflow4434HZME outflow3358
基线方法和本文所提模型DGCNMA在高速公路交通流(PEMS03、PEMS04、PEMS08)和地铁人群流量(HZME inflow、HZME outflow)数据集上的预测结果如表3所示。从表3可以看到,DGCNMA模型在高速公路交通流和地铁人群流量数据集上的预测性能大多数情况下优于基线方法。在PEMS08(resp.PEMS04)中,DGCNMA在3个指标上改进了最先进方法ASTGNN 7.6%,6.0%,6.2%(resp.1.1%,3.6%,0.7%),在HZME outflow中,DGCNMA改进了最先进方法ASTGNN 25.8%,14.16%,5.7%.在HZME inflow(resp.PEMS03)中,DGCNMA在MAE和RMSE指标上改进了最先进方法ASTGNN 22.9%,14.8%(resp.1.6%,2.3%),但MAPE指标略微低于ASTGNN。下面,将对这些基线方法和本文所提模型DGCNMA进行详细的比较和分析。
表3 交通流预测性能比较(最佳结果以粗体显示)
Table 3 Comparison of traffic flow prediction(The best results are in bold)
DatasetsMetricPEMS03MAERMSEMAPE/%PEMS04MAERMSEMAPE/%PEMS08MAERMSEMAPE/%VAR21.0834.7522.3523.7536.6618.0922.3233.8314.47SVR32.97±0.9850.15±0.1532.97±0.9828.60±0.0144.59±0.0219.15±0.0423.25±0.0136.15±0.0214.71±0.16LSTM20.62±0.1933.54±0.3428.94±2.7626.81±0.3140.74±0.1722.33±1.6022.19±0.1333.59±0.0518.74±2.79DCRNN18.39±0.1730.56±0.1720.22±2.8323.65±0.0437.12±0.0716.05±0.1018.22±0.0628.29±0.0911.56±0.04Graph WaveNet14.79±0.0825.51±0.1714.32±0.2419.36±0.0231.72±0.1313.31±0.1915.07±0.1723.85±0.189.51±0.22STGCN18.28±0.3930.73±0.7817.52±0.3222.27±0.1835.02±0.1914.36±0.1218.04±0.1927.94±0.1811.16±0.10STSGCN17.51±0.1329.05±0.4016.92±0.2221.08±0.1433.83±0.2713.88±0.0717.10±0.0426.83±0.0610.90±0.05ASTGCN17.85±0.1729.88±0.6517.65±0.7922.42±0.1934.75±0.1915.87±0.3618.86±0.4128.55±0.4912.50±0.66ASTGNN14.78±0.0525.00±0.1814.79±0.2218.60±0.0630.91±0.2212.36±0.1115.00±0.3524.70±0.539.50±0.11STFGNN16.77±0.3928.34±0.1216.30±0.0919.83±0.7031.88±0.4913.02±0.2316.64±0.0926.22±0.1510.60±0.06AGCRN15.98±0.0328.25±0.0215.23±0.1419.83±0.1232.26±0.0912.97±0.0115.95±0.4325.22±0.5610.09±0.34DGCNMA14.49±0.0224.38±0.0414.65±0.1218.39±0.1129.77±0.0912.10±0.0113.85±0.0523.23±0.138.91±0.19DatasetsMetricHZME inflowMAERMSEMAPE/%HZME outflowMAERMSEMAPE/%VAR17.6528.1058.0722.3537.9696.68SVR21.94±0.0240.73±0.0249.40±0.0725.59±0.1250.07±0.1791.71±3.18LSTM22.53±0.5139.33±0.3560.12±2.4426.18±0.3248.91±0.45103.06±8.52DCRNN12.25±0.1320.91±0.3325.53±0.3818.02±0.1631.45±0.3966.98±1.65Graph WaveNet11.20±0.1119.73±0.4623.75±0.7117.50±0.1230.65±0.4073.65±2.72STGCN12.88±0.2822.86±0.3929.66±1.5019.12±0.2333.12±0.3673.66±1.49STSGCN12.85±0.1023.20±0.3828.02±0.1918.74±0.1333.12±0.4376.85±1.01ASTGCN13.10±0.4723.23±0.8133.29±3.6319.35±0.5133.20±1.0788.75±4.00ASTGNN11.46±0.0820.84±0.2524.42±0.3017.94±0.1131.91±0.3272.46±2.42STFGNN13.12±0.2323.02±0.3730.67±0.5318.90±0.1834.12±0.4377.32±2.33ACGRN11.86±0.7124.39±0.7330.93±1.8219.34±1.2733.85±1.1688.85±0.48DGCNMA8.84±0.0717.76±0.1625.21±0.4213.31±0.1027.39±0.1868.30±0.71
在时间序列分析方法中,VAR虽然考虑多个变量之间的关系,但对数据要求高,不能自动确定变量之间的因果关系,LSTM和传统机器学习方法SVR在预测时间序列时忽略了空间相关性,因此它们的预测性能会受到影响。从表3可以看出,VAR、SVR和LSTM在3个指标上的效果不好。基于深度学习的方法DCRNN、Graph WaveNet、STGCN、STSGCN、ASTGCN、ASTGNN、STFGNN、AGCRN虽然利用神经网络对时空数据进行建模,但是不能很好地捕获相邻节点的动态空间影响。
在3个高速公路交通流数据集PEMS03、PEMS04、PEMS08上,分析最先进的3个基线方法Graph WaveNet、STSGCN、ASTGNN与本文所提模型DGCNMA在预测时间范围变化时的预测性能,实验结果如图4所示。从图中可以看到,随着预测时间范围的增加,3个指标MAE、RMSE、MAPE增加,预测性能下降,但DGCNMA模型由于能够同时捕捉时间和空间相关性,预测性能优于最先进的3个基线方法。
图4 PEMS 03/04/08上时间范围变化对预测性能的影响
Fig.4 Impact of time horizon on prediction performance on PEMS 03/04/08
为了进一步评估DGCNMA模型中各个组成部分对模型预测性能的影响,在HZME inflow、HZME outflow数据集上进行消融实验,设计了4种DGCNMA变体,具体如下:
1) DGCNMA-Spaemb.在DGCNMA的基础上,移除空间嵌入层Spatial Embedding模块。
2) DGCNMA-DGCN.在DGCNMA的基础上,移除DGCN模块。
3) DGCNMA-CNN.在DGCNMA的基础上,移除CNN模块。
4) DGCNMA-Intact.在DGCNMA的基础上,移除子序列交互学习模块。
所有变体模型采用与DGCNMA模型相同的设置,实验结果如图5-图6所示。首先,DGCNMA-Spaemb相较于DGCNMA的性能有较大下降,验证了空间嵌入层的有效性, 空间嵌入层能够有效捕捉空间相关性并融入交通流序列。其次,DGCNMA-DGCN、DGCNMA-CNN、DGCNMA-Intact相较于DGCNMA的性能也有明显下降,说明DGCN、CNN、子序列交互学习是IDGCN的重要组成,对于DGCNMA至关重要,它们能够从多个尺度提取局部和全局时空相关性。
图5 HZME inflow的消融实验分析
Fig.5 Analysis of ablation experiments on HZME inflow
图6 HZME outflow的消融实验分析
Fig.6 Analysis of ablation experiments on HZME outflow
在PEMS08数据集上分析了超参数模型的嵌入维度、编码器/解码器层数、卷积核大小、批大小对模型性能的影响,实验结果如图7所示。在实验中,除了当前分析的参数,其他参数采用4.1.4节中的默认设置。一般情况下,DGCNMA模型对参数不敏感,增加参数的值,可以略微提高性能,但性能没有随着参数值的增加而不断提高,当增加到一个特定值时,性能也趋于平稳,因此,最终选择DGCNMA的模型维度为64,编码器/解码器层数为5,卷积核大小为3,批大小为16.
图7 PEMS 08上的模型参数分析
Fig.7 Model parameter analysis on PEMS 08
本文提出了一种基于多头注意力动态图卷积网络DGCNMA的交通流预测方法。DGCNMA模型从交通网络的交通流序列中学习交通流的时空特征及时空动态相关性。在高速公路交通流和地铁人群流量数据集上的实验表明,本文所提DGCNMA模型在大多数情况下的预测性能优于最先进的基线方法,特别是在HZME outflow数据集上,与ASTGNN模型相比,DGCNMA模型在MAE、RMSE、MAPE度量上分别有25.8%,14.16%,5.7%的显著提升。
[1] LI Y,YU R,SHAHABI C,et al.Diffusion convolutional recurrent neural network:data-driven traffic forecasting[EB/OL].[2018-02-22].https:∥arxiv.org/pdf/1707.01926.pdf.
[2] WU Z,PAN S,LONG G,et al.Graph wavenet for deep spatial-temporal graph modeling[EB/OL].[2019-05-31].https:∥arxiv.org/pdf/1906.00121.pdf.
[3] PARK C,LEE C,BAHNG H,et al.ST-GRAT:a novel spatio-temporal graph attention networks for accurately forecasting dynamically changing road speed[C]∥Proceedings of the 29th ACM International Conference on Information &Knowledge Management.New York:ACM.2020:1215-1224.
[4] VASWANI A,SHAZEER N,PARMAR N,et al.Attention is all you need[J].Advances in Neural Information Processing Systems,2017,30:1-15.
[5] ZHENG C,FAN X,WANG C,et al.Gman:a graph multi-attention network for traffic prediction[C]∥Proceedings of the AAAI Conference on Artificial Intelligence.Palo Alto:AAAI,2020,34(1):1234-1241.
[6] LIU A,ZHANG Y.Spatial-temporal interactive dynamic graph convolution network for traffic forecasting[EB/OL].[2022-09-26].https:∥arxiv.org/pdf/2205.08689.pdf.
[7] WANG L,YUAN X,TING M,et al.Predicting summer Arctic sea ice concentration intraseasonal variability using a vector autoregressive model[J].Journal of Climate,2016,29(4):1529-1543.
[8] WILLIAMS B M,HOEL L A.Modeling and forecasting vehicular traffic flow as a seasonal ARIMA process:theoretical basis and empirical results[J].Journal of transportation engineering,2003,129(6):664-672.
[9] WU C H,HO J M,LEE D T.Travel-time prediction with support vector regression[J].IEEE transactions on intelligent transportation systems,2004,5(4):276-281.
[10] SUN Y,LENG B,GUAN W.A novel wavelet-SVM short-time passenger flow prediction in Beijing subway system[J].Neurocomputing,2015,166:109-121.
[11] ZHANG J,ZHENG Y,QI D.Deep spatio-temporal residual networks for citywide crowd flows prediction[C]∥Proceedings of the AAAI Conference on Artificial Intelligence.Palo Alto:AAAI,2017,31(1):1-7.
[12] ZHAO L,SONG Y,ZHANG C,et al.T-gcn:a temporal graph convolutional network for traffic prediction[J].IEEE Transactions on Intelligent Transportation Systems,2019,21(9):3848-3858.
[13] Hochreiter S,Schmidhuber J.Long short-term memory[J].Neural Computation,1997,9(8):1735-1780.
[14] CAI L,LEI M,ZHANG S,et al.A noise-immune LSTM network for short-term traffic flow forecasting[J].Chaos:An Interdisciplinary Journal of Nonlinear Science,2020,30(2):023135.
[15] WU Z,PAN S,LONG G,et al.Connecting the dots:multivariate time series forecasting with graph neural networks[C]∥Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery &Data Mining.New York:ACM,2020:753-763.
[16] LI F,FENG J,YAN H,et al.Dynamic graph convolutional recurrent network for traffic prediction:Benchmark and solution[J].ACM Transactions on Knowledge Discovery from Data,2023,17(1):1-21.
[17] 仇江辰,闫飞,田建艳.宏观交通流模型的自适应迭代学习辨识策略[J].太原理工大学学报,2023,54(1):211-224.
QIU J C,YAN F,TIAN J Y.Adaptive iterative learning identification strategy for macroscopic traffic flow model[J].Taiyuan University of Technology,2023,54(1):211-224.
[18] SONG C,LIN Y,GUO S,et al.Spatial-temporal synchronous graph convolutional networks:a new framework for spatial-temporal network data forecasting[C]∥Proceedings of the AAAI Conference on Artificial Intelligence.Palo Alto:AAAI,2020,34(1):914-921.
[19] GUO S,LIN Y,FENG N,et al.Attention based spa tial-temporal graph convolutional networks for traffic flow forecasting[C]∥Proceedings of the AAAI Conference on Artificial Intelligence.Palo Alto:AAAI,2019,33(1):922-929.
[20] GUO S,LIN Y,WAN H,et al.Learning dynamics and heterogeneity of spatial-temporal graph data for traffic forecasting[J].IEEE Transactions on Knowledge and Data Engineering,2021,34(11):5415-5428.
[21] California Department of Transportation.Performance measurement system (PeMS)[DB/OL].[2023-06-30].https:∥pems.dot.ca.gov/.
[22] ZHU W,SUN Y,YI X,et al.A correlation information-based spatiotemporal network for traffic flow forecasting[J].Neural Computing and Applications,2023:1-19.
[23] YU B,YIN H,ZHU Z.Spatio-temporal graph convolutional networks:a deep learning framework for traffic forecasting[EB/OL].[2018-07-12].https:∥arxiv.org/pdf/1709.04875.pdf.
[24] LI M,ZHU Z.Spatial-temporal fusion graph neural networks for traffic flow forecasting[C]∥Proceedings of the AAAI Conference on Artificial Intelligence.Palo Alto:AAAI,2021,35(5):4189-4196.
[25] BAI L,YAO L,LI C,et al.Adaptive graph convolutional recurrent network for traffic forecasting[J].Advances in Neural Information Processing Systems,2020,33:17804-17815.