LI Yuwei,FU Rui,LIU Fan.A lightweight traffic sign detection algorithm based on improved YOLOv7[J].Journal of Taiyuan University of Technology,2024,55(1):195-203.
随着汽车制造业的智能化需求越来越高,对交通标志识别(traffic sign recognition,TSR)系统[1]的研究具有现实意义。TSR系统能够实时向驾驶者反馈交通标志信息,提醒驾驶者规范驾驶行为,从而避免交通事故的发生,保证行车安全。并且随着智能汽车的发展,辅助驾驶已经成汽车的一项重要功能。要实现汽车系统辅助人类驾驶,对交通标志的检测更是智能汽车系统准确判别路况、做出正确驾驶抉择的不可或缺的能力。
交通标志检测是计算机视觉领域的一个重要研究课题,它在智能交通系统、自动驾驶、无人车等应用中具有广泛的意义和价值。交通标志检测的目的是从图像或视频中识别出交通标志的位置、类别,以便为驾驶员或车辆提供及时和准确的信息,从而提高道路安全和效率。
在真实场景中,由于天气、光照、遮挡、模糊等因素的影响,交通标志在图像中可能不清晰、不完整或不可见,这会降低检测的准确性和鲁棒性。而且交通标志由于长期暴露在外,可能会出现褪色、损坏、倾斜等情况[2-3]。这些情况会改变标志的外观特征,使其难以被检测器识别。交通标志检测需要具有高实时性,能够在短时间内对图像中的标志进行检测和识别,并及时反馈给车辆或驾驶员。这对于检测算法的速度和效率提出了较高的要求。如果检测延迟或错误,可能会导致误判或事故。
传统的检测方法依赖于颜色或特定形状的特征,但这些特征不够稳定,导致检测模型对环境的适应性和鲁棒性都不够好。基于深度学习的检测方法借鉴了通用目标检测框架,虽然提高了准确性,但是速度不够快,不能满足实时检测的要求。另外,一些为移动设备和嵌入式设备设计的轻量级检测框架虽然加快了速度,降低了硬件条件的要求,但是牺牲了精度方面的性能。因此,针对交通标志所面临的复杂环境,需要设计一个既高精度又超快速,并且具有较强鲁棒性的交通标志检测方法。
深度学习下的目标检测方法主要分为两阶段和单阶段两类。
两阶段的目标检测方法是由两个步骤组成:首先是生成对象位置信息的区域建议,然后是对这些感兴趣区域进行分类和回归。R-CNN算法系列(R-CNN[4]、Fast R-CNN[5]和Faster R-CNN[6])为两阶段目标检测的代表方法。R-CNN先通过实例分割将图像分割为若干块,然后选择相似度较高的块合并为一个大块,最终生成目标物体的矩形框,通过这种方法加快候选区域的筛选速度。在筛选阶段使用线性回归模型对边框进行校准,减少图像中的背景空白,得到了精确的定位。由于R-CNN没有共享卷积神经网络的参数,所以计算量非常大。Fast R-CNN先以整张图像为输入,利用卷积网络得到图片的特征层。然后,利用selective search算法得到原始图像空间中的候选框,并将这些候选框投影到特征层。针对特征层上每个不同大小的候选框,使用RoI(Region of Interest)池化操作,得到固定维度的特征表示,最后通过两个全连接层,分别用softmax分类以及回归模型进行检测。Fast R-CNN虽然提高了运算效率,但仍需要依赖外部的候选区域生成算法。Faster R-CNN在提取特征方面与Fast R-CNN有着相同的步骤,提取出特征图,然后在特征图上滑动一个3×3的卷积核,输出两个分支,一个分支用于预测每个锚框是否包含物体,另一个分支用于预测每个锚框相对于真实物体框的偏移量,这样就不需要依赖于外部的算法。在得到候选区域后,将其映射到特征图上,并使用感兴趣区域池化层将不同的候选区域转换为固定大小的特征向量。最后使用两个输出分支对目标物体进行分类和定位。针对检测性能往往受到训练过程中不平衡限制的问题,Libra R-CNN[7]使用IoU平衡采样、平衡金字塔以及平衡L1损失分别用于降低采样、特征和目标3个层次的不平衡。Dynamic R-CNN算法[8]基于训练时候选框的统计数据,自动调整标签分配标准(IoU阈值)和回归损失函数的形状(SmoothL1 Loss的参数)。Sparse R-CNN[9]使用稀疏的anchor设置方法,避免了人工设置候选框的大量超参数以及多对一的正负样本分配。更重要的是,最终的预测结果可以直接输出而不需要NMS.两阶段的目标检测网络,虽然具有较高的精度,但是识别速度较慢,不能满足对识别效率要求较高的检测场景。
单阶段的目标检测方法是将目标检测任务转化为回归问题,直接生成目标的分类和定位坐标,整个过程具有更高的检测效率。SSD[10]均匀地在图片的不同位置进行密集抽样,抽样时可以采用不同的尺度和长宽比,然后利用CNN提取特征后直接进行分类和回归。RetinaNet[11]使用Focal Loss的损失函数,用来降低大量easy negatives在标准交叉熵中所占的权重。YOLO[12]系列是最具有代表性的单阶段目标检测算法,YOLO将输入图像划分为S×S个网格,每个网格负责预测候选框和类别概率。如果一个目标的中心点落在某个网格中,那么这个网格就负责预测这个目标,这样做可以有效地利用全局信息,减少错误检测的概率。在YOLO基础上,YOLOv2[13]在每个卷积层后面增加了批量归一化层并引入了锚框这个概念,提高了网络的泛化能力,增加了网络的灵活性和准确性。YOLOv2还可以处理任意大小的输入图像,能够在训练迭代期间改变输入图像的尺寸,从而能够使网络适应不同尺度的目标检测。YOLOv3[14]在使用残差连接加速训练和提高性能的同时,使用3个尺度的特征图对目标进行预测,增加了网络的多尺度检测能力。YOLOv4[15]在以往算法的基础上,使用CSPDarknet53作为骨干网络,减少了计算量,提高了训练速度并增强了网络的泛化能力,并使用路径聚合网络进行特征聚合,将不同尺度的特征图进行自上而下和自下而上的连接,从而使高层次的语义信息和低层次的空间信息都能够传递到头部。YOLOv5[16]在输入部分使用了Mosaic数据增强、自适应锚框计算,在骨干网络使用了Focus结构与CSP结构相结合的方式,使其速度和精度都得到了极大的提升。YOLOv7[17]是YOLOv4的继续改进版本,提出了一种可训练的Bag-of-Freebies方法,它可以根据数据集和硬件环境自动选择最合适的技术和参数,从而提高模型的效率和性能。
早期的交通标志检测方法通常是根据颜色、形状以及多特征融合的方法来进行的。颜色是交通标志最显著的特征。基于RGB颜色的标志检测法始于20世纪80年代,AKATSUKA et al[18]在RGB颜色空间上利用阈值分割算法,根据不同颜色的阈值范围,将交通标志的红、黄、蓝等色彩标定出来,完成交通标志检测。矩形、圆形和三角形是交通标志的主要形状类别,形状特征相对稳定,所以研究者通过搜索RoI以及形状特点来检测是否为交通标志。可分为以下几类:1) 霍夫(Hough)变换法[19],其原理是检索形状中的直线段特征,故多被用于检测由直线构成的矩形、三角形交通标志,但检测往往会被限制在一小块区域且计算量较大。2) 径向对称检测法,BARNES et al[20]提出径向对称检测法来检测圆形标志。
深度学习给交通交通标志检测带来了新的发展。ZENG et al[21]提出了一种新的方法,即CNN作为一个深度特征提取器,这意味着只保留了前八层,消除了完全连接的层。QIAN et al[22]也使用CNN作为特征提取器,使用多层感知器作为分类器。XIE et al[23]观察到80%的错误分类具有相同的颜色、形状。TANG et al[24]基于交通标志统计特征,提出了一种新的即插即用颈部网络,即具有特征聚合的集成特征金字塔网络。ZHANG et al[25]提出了一种级联R-CNN来获取金字塔的多尺度特征,然后通过多尺度注意方法对特征进行细化。李旭东等[26]提出了一种三尺度嵌套残差结构的交通标志快速检测算法,能够快速鲁棒地检测真实场景中的交通标志。ZHANG et al[27]提出了一种深度教师网络,该网络将两个特征通道流与密集连接相结合,将学生网络与简单的端到端架构相结合。ZHANG et al[28]还提出了一个多尺度注意力特征模块。该模块融合来自不同层的特征信息并细化特征以增强特征金字塔网络。ReYOLO[29]可以学习丰富的上下文信息并感知尺度变化,以有效地检测野外小型且模糊的交通标志。
经过研究,当前基于深度学习的交通标志检测算法还存在一定问题:1) 深层的卷积虽然增大了感受野,但是有效感受野较少,特征提取能力较差。2) 对位置信息的捕捉不够精准,对交通标志的定位不够准确。3) 模型参数量较大,对设备的计算能力要求较高,不适合搭载在移动设备中。
针对目前研究中存在的问题,受到YOLOv7网络的启发,本文提出了一种改进YOLOv7的轻量化交通标志检测算法。
1) 提出集中综合深度可分离卷积模块大幅减少模型的参数和计算量,从而提高模型的效率和检测速度;
2) 提出随机池化坐标注意力模块,增强了模型的鲁棒性,并且增加了空间坐标信息的考虑;
3) 设计大核模块用于增大有效感受野,更好地提取特征。
使用CCTSDB 2021[30]数据集对本文中提出的检测网络进行性能测试,实验结果表明相比于其他算法,本文提出的算法在大幅减少参数量和计算量的基础上提高了算法的检测精度。
本文中提出的改进YOLOv7的轻量化交通标志检测算法是一种单阶段的检测算法,网络结构如图1所示。
图1 改进YOLOv7的轻量化交通标志算法整体结构
Fig.1 Structure diagram of a lightweight traffic sign detection algorithm based on improved YOLOv7
本文算法主要由4部分组成:输入、骨干网络、颈部网络和头部网络。首先,图片在输入部分经过数据增强等一系列操作进行预处理后,被输入骨干网络;骨干网络对图片进行特征提取,得到3种不同尺度的特征图;特征图在经过颈部网络进行特征融合得到大、中、小3种尺度的特征;最终将大、中、小3种尺度的特征输入到检测头部网络中进行预测,得到每个尺度上的检测框的位置、置信度以及分类信息。
针对YOLOv7在进行交通标志检测时的参数量和计算量较大的问题,提出了一种集中综合深度可分离卷积模块,从而满足对网络的轻量化要求。在颈部网络中,本文设计并引入了随机池化坐标注意力模块,用于提升网络的检测精度。此外,在骨干网络中,本文设计的大核模块通过使用大核卷积,增大了提取的特征图的有效感受野,增强了骨干网络的特征提取能力。
运用集中综合卷积模块(C3模块)提高网络的检测精度,在目标检测领域起到了良好的效果,为了进一步减少参数量和计算量,本文在集中综合卷积模块中引入深度可分离卷积[31],得到集中综合深度可分离卷积模块(DSC3模块),和使用普通卷积的C3模块相比,该模块可以进一步降低模型的计算量和参数量。集中综合深度可分离卷积模块的具体细节如图2所示。
图2 DSC3模块结构图
Fig.2 Structure diagram of DSC3 module
特征图在进入集中综合深度可分离卷积模块之后,产生两个分支,在两个分支中分别有一个深度可分离卷积模块,特征图在经过深度可分离卷积模块的处理后,连接到一起,再进行一个深度可分离卷积模块。深度可分离卷积模块由深度可分离卷积、批归一化层[32]和SiLU[33]激活函数组成。
在特征图O进入到深度可分离卷积后,第一个步骤是逐通道卷积[31](DWConv,depthwise convlution)操作F1,对输入特征图M个通道中的每个通道的特征图oi分别使用一个卷积核得到对应i通道的输出pi,然后将所有卷积核的输出再进行拼接得到逐通道卷积的最终输出:
pi=F1(oi) .
(1)
P=[p1,p2,…,pi,…,pM] .
(2)
对逐通道卷积输出的特征图P,使用N个尺寸1×1×M卷积F2j进行逐点卷积(PWConv,pointwise convolution),得到N个特征图qj,然后将所有N个特征图按通道拼接得到最终的特征图Q.
qj=F2j(P) .
(3)
Q=[q1,q2,…,qj,…qN] .
(4)
在C3模块中采用深度可分离卷积,大幅减少模型的参数和计算量,从而提高模型的效率和速度。集中综合深度可分离卷积可以在保证轻量化的同时,更好地适应不同的数据,从而使得模型更加鲁棒和稳定。
本文中提出的随机池化坐标注意力模块(CA_SPConv)中引入了随机池化[34]和坐标注意力[35](coordinate attention,CA)替换了传统SPConv中的最大池化和标准卷积模块,结构如图3所示。随机池化是一种对传统池化的改进,对特征图中的元素按照其概率值大小随机选择,元素选中的概率与其数值大小正相关。这种随机池化不但最大程度地保证了取值的最大化,也确保所有的元素不会都被选取最大值,从而提高了泛化能力。同时,和传统池化一样,随机池化也可以减少特征图的尺寸,从而降低模型的计算复杂度。
图3 CA_SPConv模块结构图
Fig.3 Structure diagram of CA_SPConv module
坐标注意力是一种在特征图中引入空间坐标信息的方法,可以使模型更好地关注重要的区域,具体细节如图3所示。传统的注意力机制通常只考虑特征图中不同通道的信息交互,而忽略了像素之间的空间关系。坐标注意力则将空间坐标信息与通道信息相结合,以更好地捕捉不同位置之间的相互作用。
对于坐标注意力输入特征X∈RC×W×H,本文使用两个空间范围的池化操作分别沿水平坐标和垂直坐标对每个通道进行编码。高度h的第c个通道的输出可以表示为:
(5)
同样,宽度为w的第c个通道的输出可以写为:
(6)
上述两个转换分别沿两个方向聚合特征,生成一堆方向感知特征图,然后将它们连接起来,然后将它们发送到共享的1×1卷积变换函数F1,得到:
f=δ(F1([zh,zw])) .
(7)
得到f后,将f沿着空间维度分为两个独立的张量fh∈RC/r×H和fw∈RC/r×W.另外两个1×1卷积Fh和Fw分别用于将前面得到的fh和fw转换为与输入X具有相同通道数的张量,得到:
gh=σ(Fh(fh)) .
(8)
gw=σ(Fw(fw)) .
(9)
式中,σ是sigmod函数。最后将gh和gw用作注意力权重,得到坐标注意力块(CA)的输出:
(10)
该随机池化坐标注意力模块增强了模型的鲁棒性,减少了过拟合的风险,并且增加了空间坐标信息的考虑,使模型能够更好地关注重要的区域。
在实际的交通场景中,路况信息往往非常复杂,这就对算法模型中骨干网络提取特征的感受野提出了更高的要求。一般来说,感受野越大,网络能够捕捉到的局部特征信息就越多,从而提取到的特征更加丰富,具有更好的区分度和表达能力。当前的卷积网络主要通过加深网络来获得更大的感受野,然而通过加深网络并没有明显地增大有效感受野,所以单纯地增加网络的层数并不能提升网络的特征提取能力。为了更有效地提取特征,受文献[36]启发,本文提出了大核模块(LKM),通过使用大核卷积扩大有效感受野,进一步地提升对复杂情况下的交通标志的检测效果。
大核模块的网络结构如图4所示。
图4 LKM模块结构图
Fig.4 Structure diagram of LKM Module
在大核模块中,特征图首先进入两个分支,分别是带有标准卷积模块(CBS)和n个大核组件的分支以及标准卷积模块的分支,然后将上述两个分支级联起来,经过一个标准卷积模块最后输出。
在大核组件中,首先对进入此组件的特征图做了组归一化操作,并且在卷积核大小为27×27的大核卷积前后使用了1×1卷积降低和升高通道数,从而降低参数量和计算量。
该模块并不增加大量的计算成本,较为轻量化。经过大核模块之后,增大了特征图中特征点的有效感受野,增强了网络的特征提取能力,从而使其在处理复杂问题时获得更好的性能。
综上所述,将深度可分离卷积放到C3模块中可以使得模型更轻量化、更高效、更具有表现力和泛化能力。因此,这种结构在轻量化场景下,特别是移动端和嵌入式设备中,具有较大的优势。
为了验证本文方法的有效性,本文在公开的交通标志检测数据集CCTSDB 2021上进行了实验。CCTSDB 2021数据集包括3个类别,分别为强制(Mandatory)、禁止(Prohibitory)和警告(Warning).其中强制标志指示车辆和行人的移动,禁止标志用于禁止和限制行人的某种交通行为,警告标志用于提醒车辆和行人前方有危险。数据集中的训练集中有18 991张图片,测试集中有1 500张图片,并且测试集中的图片还按照交通标志类别、天气情况等进行分类。本文使用训练集中的图片进行训练,并且分别在整体测试集以及按照类别分类的测试集上进行测试,测试结果如表1、表2、表3所示(在表中最优数据加粗表示,次优数据下划线表示),检测可视化图如图5所示。
表1 消融实验
Table 1 Ablation experiment
算法DSC3CA_SPConvLKMP/%R/%PmA/%参数量GFLOPs标准算法91.5280.7487.1937 207 344104.8文中方法√88.2479.9183.5632 075 31239.8√√92.9778.7486.3431 352 36039.2√√√93.1381.9187.5932 062 02439.7
表2 在整体测试集上的比较
Table 2 Comparison on the overall test set
方法P/%R/%PmA/%F1v/(F·s-1)Faster R-CNN[6]84.4354.9856.580.604.87SSD[10]86.4727.7449.200.4222.33RetinaNet[11]86.7052.8857.780.658.88YOLOv3[14]84.6342.7150.480.5420.34Libra R-CNN[7]83.7260.0461.350.708.81YOLOv4[15]76.1652.5051.690.5916.55Dynamic R-CNN[8]86.9858.3360.010.699.03Sparse R-CNN[9]94.1252.5859.650.678.45YOLOv5[16]90.8069.2076.300.78123.46YOLOv7[17]91.5280.7487.190.8625.97本文方法93.1381.9187.590.8738.00
表3 在不同交通标志下的检测结果
Table 3 Detection results under different traffic signs 单位:%
方法禁止标志PR警告标志PR强制标志PRFaster R-CNN[6]90.6055.5183.6367.9379.0541.49SSD[10]80.7524.8483.1526.6092.5031.79RetinaNet[11]93.6852.4681.9663.6684.4742.53YOLOv3[14]88.1542.3182.3754.3983.3731.44Libra R-CNN[7]92.2457.8280.6571.2678.2651.03YOLOv4[15]75.8550.1176.2059.4076.4247.99Dynamic R-CNN[8]95.4457.5384.8670.5580.6546.91Sparse R-CNN[9]97.1250.2290.8268.1794.4339.35YOLOv5[16]90.9069.8090.4082.0091.1055.80YOLOv7[17]93.4081.0088.0087.7092.7071.60本文算法94.5082.2090.6090.1094.2071.80
图5 使用本文算法进行交通标志检测的可视化结果
Fig.5 Visualization results of traffic sign detection using the algorithm in this paper
为了客观评价本网络的网络性能本文选用精确度P(Precision)、召回率R(Recall)、平均精确度PmA(mean Average Precision)、F1值为评价指标,具体公式如下所示:
(11)
(12)
PA=P(r)dr.
(13)
(14)
(15)
这里的TP、TN、FP、FN分别为模型预测为正样本实际是正样本、模型预测为负样本实际是负样本、模型预测为正样本实际是负样本、模型预测为负样本实际是正样本。n是样本类别数量,本文n取3.
模型复杂度用参数量Parameters以及计算量GFLOPs来评价,检测速度指标用每秒处理的帧数FPS来评价。
实验使用一块显存为8GB的Tesla P4 GPU进行训练和测试。数据集训练时的批次大小为8,共迭代200个Epoch.程序运行的操作系统为linux,深度学习框架为Pytorch,代码全部使用Python语言实现。
本文以YOLOv7作为基准方法,在CCTSDB 2021数据集上进行了3组消融实验,分别验证了集中综合深度可分离卷积模块、随机池化坐标注意力模块以及大核模块的效果,如表1所示。
在加入了集中综合深度可分离卷积模块之后,检测精度有所下降,但是大幅度地降低了参数量以及计算量;当再加入了随机池化坐标注意力模块之后,提高了检测的准确率;当在前面两个模块引入的基础上,再加入了大核模块之后,模型的检测准确率、召回率以及平均精确度值有了较为明显的上升,但增加了少量的参数量和计算复杂度。本文方法和基准方法相比,体现出了更好的检测性能以及更低的模型复杂度。
为了进一步证明本文方法的有效性,本文在CCTSDB 2021数据集上将本文方法和其他的目标检测方法进行了对比,分别使用CCTSDB 2021的整体测试集、不同类别的交通标志的测试集以及不同天气下交通标志的测试集对本文方法和其他目标检测方法进行了测试,检测结果如表2、表3所示。
在CCTSDB 2021数据集中本文比较了Faster R-CNN、SSD、RetinaNet、YOLOv3、Libra R-CNN、YOLOv4、Dynamic R-CNN、Sparse R-CNN、YOLOv5、YOLOv7共10种方法,由表1可以看出本文方法的精确度P(93.13%)、召回率R(81.91%)、平均精确度PmA(87.59%)、F1值(0.87)优于其他方法。每秒处理帧数(38.00)代表着网络处理图像的速度并用于衡量网络的轻量化,在同样的硬件水平下,本文方法每秒处理图像的帧数也高于大部分其他方法,降低了达到同样性能所需要的硬件需求。
在使用不同类别交通标志对网络进行测试时,本文中的方法也在大部分情况下优于其他方法。
针对交通标志检测过程中,不增加负载的情况下难以提升检测效果的问题,本文提出一种基于改进YOLOv7的轻量化交通标志检测算法。本文算法由输入、骨干网络、颈部网络和头部网络4个部分组成。该网络包括集中综合深度可分离卷积模块、随机池化坐标注意力模块以及大核模块。集中综合深度可分离卷积模块降低了网络的参数量和计算量,提升了网络的计算效率;随机池化坐标注意力模块增强了模型的鲁棒性,减少了过拟合的风险,并且增加了空间坐标信息的考虑,使模型能够更好地关注重要的区域;大核模块增大了特征图中特征点的有效感受野,增强了网络的特征提取能力,从而使其在处理复杂问题时获得更好的性能。最后本文在CCTSDB 2021数据集上对网络进行了测试,验证了网络的有效性。
[1] 薛搏,李威,宋海玉,等.交通标志识别特征提取研究综述[J].图学学报,2019,40(6):1024-1031.
XUE B,LI W,SONG H Y,et al.Review on feature extraction of traffic sign recognition[J].Journal of Graphics,2019,40(6):1024-1031.
[2] 杨京晶,李付江,张起贵.基于视频码流的交通标志检测[J].太原理工大学学报,2022,53(1):169-174.
YANG J J,LI F J,ZHANG Q G.Traffic sign detection based on video encoding stream[J].Journal of Taiyuan University of Technology,2022,53(1):169-174.
[3] YUAN Y,XIONG Z,WANG Q.An incremental framework for video-based traffic sign detection,tracking,and recognition[J].IEEE Transactions on Intelligent Transportation Systems,2016,18(7):1918-1929.
[4] GIRSHICK R,DONAHUE J,DARRELL T,et al.Rich feature hierarchies for accurate object detection and semantic segmentation[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2014:580-587.
[5] GIRSHICK R.Fast R-CNN[C]∥Proceeding of the IEEE International Conference on Computer Vision (ICCV),2015:1440-1448.
[6] REN S Q,HE K M,GIRSHICK R,et al.Faster R-CNN:towards real-time object detection with region proposal networks[J].Advances in Neural Information Processing Systems,2015,1:91-99.
[7] PANG J,CHEN K,SHI J,et al.Libra R-CNN:towards balanced learning for object detection[C]∥Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition,Long Beach,CA,USA,2019:821-830.
[8] ZHANG H,CHANG H,MA B,et al.Dynamic R-CNN:towards high quality object detection via dynamic training[C]∥Proceedings of Computer Vision-ECCV 2020:16th European Conference,Glasgow,UK,August 23-28,2020,2020:260-275.
[9] SUN P,ZHANG R,JIANG Y,et al.Sparse R-CNN:end-to-end object detection with learnable proposals[C]∥Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition,2021:14454-14463.
[10] LIU W,ANGUELOV D,ERHAN D,et al.SSD:single shot multibox detector[C]∥Proceedings Computer Vision-ECCV 2016:14th European Conference,Amsterdam,The Netherlands,October 11-14,2016,Part I 14.Springer International Publishing,2016:21-37.
[11] LIN T Y,GOYAL P,GIRSHICK R,et al.Focal loss for dense object detection[C]∥Proceedings of the IEEE International Conference on Computer Vision.Venice,Italy,2017:2980-2988.
[12] REDMON J,DIVVALA S,GIRSHICK R,et al.You only look once:unified,real-time object detection[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Las Vegas,USA,2016:779-788.
[13] REDMON J,FARHADI A.YOLO9000:better,faster,stronger[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2017:7263-7271.
[14] REDMON J,FARHADI A.YOLOv3:an incremental improvement[J].Computer Vision and Pattern Recognition,2018:1804-2.
[15] BOCHKOVSKIY A,WANG C Y,LIAO H Y.YOLOv4:optimal speed and accuracy of object detection[EB/OL].[2020-04-23].https:∥doi.org/10.48550/arXiv.2004.10934.
[16] ULTRALYTICS.yolov5:v7.0 [EB/OL].https:∥github.com/ultralytics/yolov5.
[17] WANG C Y,BOCHKOVSKIY A,LIAO H Y M.YOLOv7:Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors[C]∥Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition.2023:7464-7475.
[18] AKATSUKA H,IMAI S.Road signposts recognition system[R].SAE Technical Paper,1987.
[19] DUDA R O,HART P E.Use of the Hough transformation to detect lines and curves in pictures[J].Communications of the ACM,1972,15(1):11-15.
[20] BARNES N,ZELINSKY A,FLETCHER L S.Real-time speed sign detection using the radial symmetry detector[J].IEEE Transactions on Intelligent Transportation Systems,2008,9(2):322-332.
[21] ZENG Y,XU X,FANG Y,et al.Traffic sign recognition using extreme learning classifier with deep convolutional features[C]∥The 2015 international conference on intelligence science and big data engineering (IScIDE 2015),Suzhou,China,2015,9242:272-280.
[22] QIAN R,YUE Y,COENEN F,et al.Traffic sign recognition with convolutional neural network based on max pooling positions[C]∥2016 12th International conference on natural computation,fuzzy systems and knowledge discovery (ICNC-FSKD).IEEE,2016:578-582.
[23] XIE K,GE S,YE Q,et al.Traffic sign recognition based on attribute-refinement cascaded convolutional neural networks[C]∥Advances in Multimedia Information Processing-PCM 2016:17th Pacific-Rim Conference on Multimedia,Xi’an,China,September 15-16,2016,Proceedings,Part I.Springer International Publishing,2016:201-210.
[24] TANG Q,CAO G,JO K H.Integrated feature pyramid network with feature aggregation for traffic sign detection[J].IEEE Access,2021,9:117784-117794.
[25] ZHANG J,XIE Z,SUN J,et al.A cascaded R-CNN with multiscale attention and imbalanced samples for traffic sign detection[J].IEEE Access,2020,8:29742-29754.
[26] 李旭东,张建明,谢志鹏,等.基于三尺度嵌套残差结构的交通标志快速检测算法[J].计算机研究与发展,2020,57(5):1022-1036.
LI X D,ZHANG J M,XIE Z P,et al.A fast traffic sign detection algorithm based on three-scale nested residual structures[J].Journal of Computer Research and Development,2020,57(5):1022-1036.
[27] ZHANG J,WANG W,LU C,et al.Lightweight deep network for traffic sign classification[J].Annals of Telecommunications,2020,75:369-379.
[28] ZHANG J,YE Z,JIN X,et al.Real-time traffic sign detection based on multiscale attention and spatial information aggregator[J].Journal of Real-Time Image Processing,2022,19(6):1155-1167.
[29] ZHANG J,ZHENG Z,XIE X,et al.ReYOLO:a traffic sign detector based on network reparameterization and features adaptive weighting[J].Journal of Ambient Intelligence and Smart Environments,2022,14(4):317-334.
[30] ZHANG J,ZOU X,KUANG L D,et al.CCTSDB 2021:a more comprehensive traffic sign detection benchmark[J].Human-centric Computing and Information Sciences,2022,12:23.
[31] HOWARD A G,ZHU M,CHEN B,et al.Mobilenets:efficient convolutional neural networks for mobile vision applications[EB/OL].[2017-04-17].https:∥doi.org/10.48550/arXiv.1704.04861.
[32] IOFFE S,SZEGEDY C.Batch normalization:accelerating deep network training by reducing internal covariate shift[C]∥International Conference on Machine Learning,2015,37:448-456.
[33] ELFWING S,UCHIBE E,DOYA K.Sigmoid-weighted linear units for neural network function approximation in reinforcement learning[J].Neural Networks,2018,107:3-11.
[34] ZEILER M D,FERGUS R.Stochastic pooling for regularization of deep convolutional neural networks[EB/OL].[2013-01-16].https:∥doi.org/10.48550/arXiv.1301.3557.
[35] HOU Q,ZHOU D,FENG J.Coordinate attention for efficient mobile network design[C]∥Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition,2021:13713-13722.
[36] DING X,ZHANG X,HAN J,et al.Scaling up your kernels to 31×31:Revisiting large kernel design in cnns[C]∥Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition.New Oreans,LA,USA,2022:11963-11975.