基于改进Transformer的变电站复杂场景下电力设备分割

李 洋,朱春山,张建亮,高 伟,薛泓林,马军伟,温志芳

(国网山西信通公司,太原 030021)

摘 要:【目的】变电站电力设备种类多设备之间连接关系复杂,普遍存在设备位置和图像对比较为单一,实际应用中只能获得有限数量的目标图像和标记以及传统方式分割带来的电力设备图像分割精度不够的问题,将卷积神经网络(Convolution Neural Network,CNN)与Transformmer结合组成新模型进行变电站电力设备的分割,提出了一种基于编解码器结构的新型SE-Transfomer(Substation Equipment Transformer)网络。【方法】为了获取局部上下文信息,编码器首先利用CNN提取空间特征图。同时,对特征图进行了精心改造,多尺度特征输入进行全局特征建模。该解码器利用Transformer提取全局深层特征,并进行逐步上采样来预测详细的分割图。SE-Transfomer在山西省梁家庄变电站数据集上进行广泛实验,其纵向结果的Dice系数(Dice)、召回率(Recall)、特异度(Specificity)和均方根误差(RMSE)分别为89.31%,90.52%,89.62%和11.32.【结果】结果表明,SE-Transfomer在变电站电力设备的扫描上获得了与以往最先进的分割方法相当或更高的结果。

关键词:Transformer;CNN;图像分割;电力设备;变电站

中图分类号:TP391.9

文献标识码:A

DOI:10.16355/j.tyut.1007-9432.20230218

文章编号:1007-9432(2024)01-0057-09

引文格式:李洋,朱春山,张建亮,等.基于改进Transformer的变电站复杂场景下电力设备分割[J].太原理工大学学报,2024,55(1):57-65.

LI Yang,ZHU Chunshan,ZHANG Jianliang,et al.Electrical equipment segmentation in complex substation scenarios based on improved transformer[J].Journal of Taiyuan University of Technology,2024,55(1):57-65.

收稿日期:2023-03-30;

修回日期:2023-05-29

基金项目:国网山西省电力公司科技项目资助(52051C220003)

通信作者:李洋(1978-),博士,高级工程师,主要从事电力信息通信技术研究,(E-mail)liyang202278@163.com

Electrical Equipment Segmentation in Complex Substation Scenarios Based on Improved Transformer

LI Yang, ZHU Chunshan, ZHANG Jianliang, GAO Wei, XUE Honglin, MA Junwei, WEN Zhifang

(InformationandCommunicationBranchofStateGridShanxiElectricPowerCompany,Taiyuan030021,China)

AbstractPurposes】 Owing to the varietry of electrical equipment and the complex connection between them in transformer station, there are many common problems includeng relatively limited location and picture contrast of equipment, insufficient target images and markers in practical applications, and inaccurate electrical equipment image segmentation brought by the traditional way. In this paper, CNN (Convolutional Neural Network) is combined with Transformer to form a new model for segmentation of electrical equipment, and a new SE-Transfomer (Substation Equipment Transformer) network based on codec structure is proposed. 【Methods】 To obtain the local context information, the coder extracts the spatial feature map by using CNN at first. Meanwhile, the feature map is carefully modified with multi-scale feature inputs for global feature modeling. The decoder extracts global deep features using Transformer and performs stepwise up-sampling to predict the detailed segmentation map.SE-Transfomer is extensively experimented on the dataset of Liangjiazhuang Transformer Station in Shanxi province, and its longitudinal results of Dice, Recall, Specificity, and RMSE (Root Mean Square Error) are 89.31%, 90.52%, 89.62%, and 11.32, respectively. 【Findings】 The results indicate that SE-Transfomer obtains comparable or higher results than previous state-of-the-art segmentation methods on the scanning of electrical equipment in the transformer station.

Keywordstransformer; CNN; image segmentation; electrical equipment; substation

随着国家电力行业智能化水平的不断提高,变电站数字孪生体[1]的发展也十分迅速。但随着电力设备逐渐增多,电网内部的日常运行维护工作量急剧增加。考虑在变电站数字孪生体中,需实现对变电站物理实体进行数字映射。变电站电力设备分割是电力系统维护中的重要问题之一。变电站设备实例如图1所示。图1中包含了电压互感器、断路器、隔离开关、接地刀闸、高压套管、低压套管、中性套管、端子箱、电流互感器以及各类出线柜。在实际工作中由于变电站设备种类多、设备之间连接关系复杂,在映射过程中,普遍存在设备位置图像对比较为单一、实际应用中只能获得有限数量的目标图像进行获取和标记以及电力设备图像分割的精度问题。

图1 变电站设备实例图
Fig.1 Common equipment in substations

卷积神经网络为解决以上问题提供了可能。卷积神经网络(CNN)[2]在分类、分割和目标检测等各种视觉任务中都取得了巨大的成功。Mask R-CNN[3]有效地检测图像中的对象,同时为每个实例生成高质量的分割掩码。U-Net[4]采用具有跳过连接的对称编码解码器结构来提高细节保留率,成为医学图像分割的主流架构。许多U-Net的变体,如U-Net++[5]和Attention U-Net[6],进一步提高了图像分割的性能。虽然基于CNN的方法具有良好的表示能力,但由于卷积核的接受域有限,很难建立显式的长距离依赖关系。卷积操作的这种限制性对学习全局语义信息提出了挑战,而全局语义信息对于分割等密集的预测任务至关重要。

而Transformer能够很好地弥补CNN存在的不足。受自然语言处理中注意机制[7]的启发,现有的研究通过将注意机制与CNN模型融合,克服了这一局限性。非局部神经网络[8]设计了一种基于自注意机制的即插即用非局部算子,该算子可以捕获特征图中的长距离依赖小的计算开销集成到标准的CNN模型中,同时提高模型的灵敏度和预测精度。另一方面,Transformer[9]被设计用于建模序列到序列任务中的长期依赖关系,并捕获序列中任意位置之间的关系。这种体系结构完全基于自我关注,完全摒弃了卷积。与以往基于CNN的方法不同,Transformer不仅在全局上下文建模方面功能强大,而且在大规模预训练的情况下,还可以在下游任务上取得良好的效果。

最近,基于Transformer的框架在各种计算机视觉任务上也达到了最先进的性能。Vision Transformer(ViT)[10]将图像分割成斑块,并将这些斑块之间的相关性与Transformer进行序列建模,在图像分类上取得了令人满意的效果。DeiT[11]进一步介绍了一种用于训练转换的知识提炼方法。DETR[12]将目标检测作为一种基于Transformer的集合预测任务。TransUNet[13]是一项将ViT用于图像分割的并行工作。

Transformer的成功主要体现在图像分类上。对于密集的预测任务,如分割、局部和全局(或远程)信息都是重要的。然而,当直接将图像分割成补丁作为Transformer的标记时,局部结构被忽略了。此外,对于变电站电力设备数据在连续输入的情况下进行局部特征建模也是图像分割至关重要的因素。因此,受上述文献启发:设计一个神经网络,通过利用高度表达的Transformer,有效地模拟体积数据的空间和深度维度的局部和全局特征。

为了解决CNN在变电站电力设备分割中对局部像素不敏感的问题,本文提出了一种新的模型SE-Transformer. SE-Transformer结合了CNN和Transformer的优点,同时在局部特征和全局特征之间进行交叉编码,有效地提高了分割结果的准确性。同时,该模型为使用Transformer解决计算机视觉任务问题提供了新的思路,展示了Transformer在电力设备分割领域的潜在优势。

本文提出的模型传输建立在编码器-解码器结构上。网络编码器首先利用CNN提取空间特征,同时对输入的二维图像进行降采样,生成紧凑的体积特征图,有效地捕获局部二维上下文信息。然后,每个特征被重塑为一个向量,并输入Transformer进行全局特征建模。CNN解码器从Transformer中提取特征嵌入,进行逐步上采样,预测全分辨率分割图。在变电站设备开源数据集上的实验表明,SE-Transfomer在变电站电力设备分割上获得了与以往最先进的3D分割方法相当或更高的结果。同时,笔者还进行了全面的消融研究,以阐明在CNN中加入Transformer的架构工程,以释放这两种架构的力量。本文创新点如下:

1) 将改进的Transformer方法应用于变电站电力设备的研究,并利用其卓越的远程建模能力来提高变电站电力设备图像的分割精度,并通过实验进行了有效验证。

2) 将Transformer与CNN相结合提取目标全局和局部信息,有效地缓解了Transformer对局部像素的不敏感性。在保持远程依赖能力的同时,该模型可以实现目标局部的强耦合状态。

3) 提取全局多尺度特征和局部多特征提取,将多尺度特征结合,并输入到原始Transformer中,并在对桥接过程中的模块采用不同的密集卷积操作来提取不同粒度的图像局部特征。

1 相关工作

1.1 深度学习算法在电力领域图像识别上的典型应用

刘鲲鹏等[14]提出了一种检测输电线路断股的高效算法,该算法通过计算异常点与输电线路边缘的垂直距离来判断线路是否存在故障。文献[15]采用传统算法对原始红外图像转换到LAB空间进行K-means聚类去除背景类,使用NCC灰度匹配算法确定电气设备的位置,实现了图像的自动识别和热故障诊断。在深度卷积神经网络应用方面,文献[16]采用强泛化卷积神经网络对输电线路覆冰厚度进行识别,能实现对不同分辨率和不同位置角度的覆冰图像保持较高的辨识精度和速度。文献[17]采用迁移学习、软性惩罚非极大值抑制等方法对SSD 算法进行改进,实现了对5类小样本电力设备的检测。文献[18]提出对绝缘子红外图像实例分割和温度分析的电力设备诊断方法,该方法采用MaskR-CNN网络,利用迁移学习和动态学习率算法,实现对绝缘子红外图像的识别。葛玉敏等[19]提出一种基于可见光图像的绝缘子表面状态检测方法,通过建立模糊综合评判数学模型来计算绝缘子的污秽等级,并判断绝缘子表面是否有裂纹。文献[20]将可见光图像与红外图像融合,进行绝缘子污秽等级识别。文献[21]利用深度学习技术对可见光图像进行处理,用于对输电线的断股、异物、覆冰等缺陷进行检测。

以上研究大多是将CNN应用于变电站进行图像分类、分割。但是将Transformer与CNN结合应用于变电站设备图像分割的研究较少。

1.2 深度学习算法在电力领域图像识别上的典型应用

文献[22]将不同的dropout技术整合到Transformer模型的训练中具体来说,提出了一种名为UniDrop的方法,将3种不同的丢弃技术从细粒度到粗粒度结合起来,即特征丢弃、结构丢弃和数据丢弃,提高了分类的准确性。文献[23]在自我注意机制中增加查询、键和相对位置嵌入之间的交互。新的模型可以用较小的计算预算提高大型模型的精度。文献[24]在通过从不同的角度评估训练的Transformer模型中单个组件(子层)的影响来弥补这一差距。这些发现可能有助于人类更好地分析、理解和改进Transformer模型。文献[25]证明通过重新审视嵌入缩放、提前停止、相对位置嵌入和通用Transformer变体等基本模型配置,可以显著提高Transformer在系统泛化方面的性能。由于在预训练期间,Pre-LayerNorm变换器存在梯度幅度失配:早期层的梯度比后期层大得多。文献[26]提出的Normformer架构可以缓解这些问题向每个层添加3个规范化操作:自我关注后的层规范、自我关注输出的头部缩放,以及第一完全连接层,大大提高了模型的效率。

以上研究从多个角度来提升Transformer模型的效率,但是没有结合CNN应用到变电站项目上,因此本文将CNN与Transformer相结合构建出SE-Transfomer新模型。

2 方法

2.1 SE-Transfomer的总体架构

SE-Transfomer的概述如图2所示。网络整体结构由编码器-解码器结构组成。给定一个输入的变电站设备扫描XRC×W×H(C为通道参数,H为长度参数,W为宽度参数),首先利用CNN生成捕获图像的特征信息。原始的电力设备图像大小为3×256×256.在这里,采用卷积标准化操作来对图像维度进行转化,卷积标准化操作包括卷积、池化以及激化函数来增强模型的表达能力。初次标准化操作图像变为64×256×256,二次标准化操作后的图像维度信息为128×128×128,三次标准化操作后为256×64×64,最终,图像的特征尺度为512×32×32.对尺度为128×128×128、256×64×64和512×32×32的特征图像进行桥接求和操作来防止因下采样而丢失的图像特征。我们采用密集的卷积操作提取目标的局部详细信息,利用Transformer编码器对全局信息中的长距离依赖进行建模。然后,对上采样层和卷积层进行迭代,逐步产生高分辨率、高精度的分割结果。总之,Transformer和CNN的结合,共同提取目标的全局和局部信息,增强模型的泛化性和鲁棒性,增强模型的泛化性和鲁棒性。

图2 SE-Transfomer的总体架构
Fig.2 Overall architecture of SE-Transformer

2.2 网络编码

由于Transformer的计算复杂度与标记数的关系是二次的(i.e.序列长度),直接将输入的图像压平为一个序列,作为Transformer的输入是不切实际的。因此,ViT[7]将图像分割成固定大小(16×16)patches,然后将每个patch转为一个标记,将序列长度减少到162.对于部分难处理的数据,在ViT之后的直接标记化将是将数据分割成补丁。然而,这种简单的策略使得Transformer无法有效准确地对图像局部上下文信息进行图像分割。为了解决这一挑战,解决方案是将3×3卷积块用于下采样叠加,逐步将输入图像编码为低分辨率/高级特征表示FRK×(W/n)×(H/n)(K=512),这是HW输入维度的1/8.这样,丰富的局部上下文特征就可以有效地嵌入到F中。然后,将F输入Transformer编码器,以进一步学习与全局感受域的长期相关性。

Transformer编码器的功能嵌入式封装。给定特征图F,为了保证每个图像的全面表示,使用线性投影(1个3×3卷积层)将信道尺寸从K=128增加到d=512. Transformer层期望有一个序列作为输入。因此,将长度维度和宽度维度分解为一维,得到一个d×N(N=W×H/64)特征图f,也可以看作是Nd维标记。为了对分割任务中至关重要的位置信息进行编码,引入了可学习的位置嵌入,并通过直接添加将其与特征映射f融合,创建如下特征嵌入:

z0=f+PE=W×F+PE.

(1)

式中:W为线性投影运算,PERd×N表示位置嵌入,和z0Rd×N指的是特征嵌入。

Transformer编码器由L层Transformer层组成,每个Transformer层都有一个标准的架构,由一个多头注意(MHA)块和一个前馈网络(FFN)组成的输出(l∈[1,2,…,E]).Transformer层的计算方法为:

(2)

(3)

式中:LN(*)是图层的归一化和ze是第Transformer层的输出。

2.3 网络解码器

为了在原始的二维图像(H×W)中生成分割结果,引入了一个CNN解码器来进行特征上采样和像素级分割(见图1的右部分)。

功能映射。为了拟合二维CNN解码器的输入维数,首先设计了一个特征映射模块,将序列数据投影回一个标准的三维特征映射。具体是Transformer的输出序列LRd×N首先被重塑为d=W×H/64.为了降低解码器的计算复杂度,采用卷积块将信道维数从d降至K.通过这些操作,特征映射ZRK×W×H/64,得到了在特征编码部分中与F具有相同的维数。

渐进式功能上采样。在特征映射后,对Z进行级联上采样操作和卷积块,逐步恢复全分辨率分割结果RRH×W.此外,利用跳过连接将编码器特征与解码器特征融合,以获得更精细的二维图像细节的分割掩模。在桥接过程中的模块采用不同的密集卷积操作来提取不同粒度的图像局部特征。

2.4 损失函数

在逐个像素的水平上监测模型预测的损失,以实现对电力设备成像和分割轮廓的强有力的监督。为了提高对错误像素信息的敏感度,使用均方误差(MSE)来衡量模型预测结果与对应的真实结果之间的差异。对于均方根误差,均方误差将更有利于模型的梯度计算和收敛速度。公式如下:

(4)

式中:Pi和Truthi是预测结果和相应的基本事实;i是当前像素在特征图像中的位置,N是像素数。损失函数实现了SE-Transfomer的反向传播。对网络参数进行了优化,实现了有序序列下电力设备图像和轮廓的端到端预测。

分割模型和其他模型之间有几个关键区别。1) TransUNet是一个二维网络,以每片的方式处理每个二维图像。然而,SE-Transfomer是CNN+Transformer构成的模型架构,并且一次处理所有的图像切片,允许更好地利用切片之间的连续信息的表示。也就是说,TransUNet只关注标记化图像之间的空间相关性,但SE-Transfomer可以同时模拟切片/深度维度和空间维度的长期依赖性进行体积分割。2) 由于TransUNet采用了ViT结构,因此它依赖于在大规模图像数据集上建立的预先训练好的ViT模型。相比之下,SE-Transfomer具有灵活的网络设计,并且在特定于任务的数据集上从头开始进行训练,而不依赖于预先训练的权值。

3 实验

3.1 数据集

根据山西省梁家庄变电站,超过2TB容量的设备图像中,选取近4 000张可见光图像,建立了含6类设备标记图像的数据集“EE”.包含292张变压器、256张智能温度控制器、296张交流进线屏、375张事故照明屏、211张绕温表、300张套油管位计和油温表,301张变压器油位表,共2 031张图像,各类设备标签依次为arrester、currentt、insluator、breaker、reactor、disconnector.大多数图像中包含1~3种不同的设备类型,1~5个设备个数。部分数据集展示如图3所示。

图3 部分数据集中的图像
Fig.3 Images in partial dataset

3.2 实施细节

使用图像旋转(90°、180°、270°)和正反转操作来丰富数据集。最后,得到了总共15 900组电力设备数据。这些数据增强方法增加了数据集的多样性,提高了泛化能力。

增强的序列仍然是有序的,不影响实验结果。使用1 060例电力设备数据作为训练集,265例电力设备数据(4∶1)作为测试集,对模型进行5次交叉验证。在这里,使用Pytorch框架来构建模型,整个训练过程在NVIDIA Titan-XP GPU上完成。在训练过程中,将批次大小设置为8,并使用ADAM优化器对参数进行调整,首先将学习率设置为5×10-3,以加快网络的快速收敛。随着训练过程中损失的变化,最终的学习率为10-6.

3.3 评估指标

在这项研究中,Dice系数(Dice)、召回率(Recall)、特异度(Specificity)和均方根误差(RMSE)被用来评估变电站设备的分割效果。

(5)

(6)

(7)

(8)

式中:Pi和Truthi是预测结果和相应的基本事实;i是当前像素在特征图像中的位置;N是像素数。TP、TN、FP和FN分别是真正值、真负值、假正直和假负值的数量。选取这4个评价指标从多个角度对纵向模型的预测精度进行了评价。

3.4 对比实验

为了更好地证明SE-Transfomer在变电站电力中的稳健性,我们将其与图像分割领域的主流方法进行了比较。如表1所示,第一列显示了要比较的模型方法,最后4列给出了每个评估指标的结果。可以看出,比起方法Mask R-CNN、V-Net、KiU-Net、Transformer以及本文的SE-Transfomer可以实现更小的RMSE和相对更高的Dice分数、Specificity和Recall.这意味着本文的模型对变电站电力设备图像分割的结果与实际情况的偏差较小。预测结果更接近变电站电力设备的真实轮廓,这也清晰地证明了利用Transformer来建模全局关系的益处。

表1 SE-Transfomer与图像分割领域主流方法对比
Table 1 Comparison between SE-transformer and mainstream segmentation methods

ModelsEvalution metrics/%DiceRecallRMSESpecificityMask R-CNN80.12±4.3681.36±6.3617.22±6.0681.37±4.96V-Net81.36±7.3683.63±6.8116.12±7.0482.32±5.81KiU-Net85.72±3.9288.30±7.2314.98±5.6786.42±4.56Attention U-Net86.80±6.2187.17±8.5613.02±3.3687.15±5.02SE-Transfomer89.31±5.1990.52±6.3711.32±3.0689.62±5.36Transformer78.34±4.3379.35±8.9918.47±8.0178.58±4.31

为了直观地了解不同模型的电力设备分割结果,在测试集中选取了3组变电站电力设备变压器油位表(图4红框所标记的)的数据进行评估,并给出了SE-Transfomer和其他比较方法的可视化结果,结果如图5所示。

图4 变压器油位表
Fig.4 Transformer oil level gauge

图5 分割效果对比图
Fig.5 Comparison of segmentation effects

通过全面对比给出了真实设备(变压器油位表)的分割掩膜,分割掩膜就可以直观地说明不同模型的分割精度。第一行的第一列是模型Mask R-CNN的分割结果,第二列是模型V-Net的分割结果,第三列是KiU-Net的分割结果。第二行的第一列是模型Attention U-Net的分割结果,第二列是提出的模型的分割结果,最后一列是纯Transformer模型的分割结果。

显然对比其他5种算法SE-Transfomer都表现良好。前两种算法Mask R-CNN和V-Net仅对变压器油位表外观的实现了较为粗略分割,图像相对模糊。KiU-Net和Attention U-net相对有一定的改善,但在轮廓整体形状的表现方面仍有一定误差。而纯Transformer模型则是在整体性能上表现不如上述的4种算法,因此相比之下,SE-Transfomer实现了对变电站变压器油位表图像和形态轮廓的更准确分割。它具有较强的远程依赖性和较小的分割误差,从而能够更准确地完成变电站电力设备的分割任务。利用数据集,采用多层卷积和自我注意来学习变电站电力设备在任何方向上的扩展像素,对设备间特征关系具有更强的长期依赖性。在定量和定性相结合的比较下,SE-Transfomer对变电站电力设备的分割具有较高的准确性和普适性。

3.5 模型复杂度性

SE-Transfomer有32.99 M参数和333 G FLOPs,这是一个中等大小的模型。此外,通过减少堆叠Transformer层的数量从4到1和减半的隐藏尺寸的FFN,得到了一个轻量级的SE-Transfomer,它只有15.14 M个参数和208 G Flops,在山西省梁家庄变电站电力设备测试集上获得了84.12%~94.5%的Dice分数,通过减少Transformer中的层作为一种简单而直接的方法来降低复杂性,性能只是略有下降。与其他模型相比,轻量级SE-Transfomer在模型复杂性方面显示出很大的优势。值得注意的是,在本文的框架中可以使用高效的Transformer变体来取代普通的Transformer,以在保持准确性的同时进一步降低内存和计算复杂性,但这超出了这项工作的范围。

3.6 消融实验

通过进行广泛的消融实验,以验证SE-Transfomer的有效性,并基于对山西省梁家庄变电站电力设备训练集集的五倍交叉验证评估,证明了其设计选择的基本原理:1) 研究了采用对多特征提取对整体模型框架分割准确度的影响。2) 研究了标记的序列长度对Transformer的影响,这是由网络编码器中CNN的整体步幅控制的。3) 在不同的模型尺度上探索Transformer. 4) 还分析了跳跃连接的不同位置的影响。

1) 多特征提取。在图2中,对二次卷积后为128×128×128的图像、三次卷积后为256×64×64图像和最后一次卷积后512×32×32的图像进行了多提取,将提取后的特征进行融合后输入模型中的Linear Project.因此对比了SE-Transformer使用多特征提取和不使用时对分割效果和精度的影响。如表2所示,可以看出采用多特征提取的方式能够提高本文模型的分割性能。

表2 SE-Transformer使用多特征提取与不使用的区别
Table 2 Difference between using and not using multi-feature extraction in SE-Transformer

ModelMulti feature extractionDice/%RMSESE-TransformerUse84.76±4.1912.77±4.43SE-TransformerNot use86.34±5.4811.25±3.39

2) 序列长度N.表3给出了Transformer不同序列长度的消融研究。第一行(OS=16)和第二行(OS=8)都会在降采样后将特征映射的每个卷积重塑为一个特征向量。值得注意的是,通过将OS从16调整到8来增加token的长度,可以显著提高性能。其中,第一行和第二行Dice评分分别为81.36%±6.21%和85.41%±5.91%.由于内存限制,在将OS设置为4后,不能直接将每个卷积重塑为一个特征向量。所以做了一个轻微的修改,以保持序列长度到4 096,即在传递到Transformer之前,将每个2×2的补丁展开成一个特征向量。由此发现,虽然OS从8下降到4,但序列长度没有发生本质增加,同时性能(Dice分数)并没有下降,甚至没有恶化。

表3 Transformer不同序列长度的消融研究
Table 3 Ablation study about sequence length of Transformer

OSSequence lengthDice/%RMSE1651281.36±6.2113.46±4.8384 09685.41±5.9111.32±3.0544 09679.46±7.8411.56±3.25

3) Transformer规模。特征嵌入维数(d)和Transformer层数(深度L)这两个超参数主要决定了Transformer的规模。通过进行消融实验,以验证Transformer规模对分割性能的影响。为了提高效率,只对每个模型配置进行训练1 000个周期。如表4所示,具有d=512的网络,在L=4时Dice得分最好,RMSE的值最低。增加嵌入维数(d)并不一定会导致性能的提高(L=4,d=768),但却带来了额外的计算成本。还观察到,L=4在性能和复杂性方面是Transformer的一个“最佳点”。

表4 Transformer规模对分割性能的影响
Table 4 Effect of scale on segmentation performance

DepthEmbedding dimDice/%RMSE438476.33±6.2114.56±4.73451281.41±6.5112.41±3.17476877.46±7.1413.96±4.02151278.57±5.9913.51±3.89851274.00±5.6714.36±4.83

跳跃连接的位置(SC)为了提高模型的表示能力,进一步研究了跳跃连接的位置(图1中的虚线)。消融实验的结果见表5.如果将跳跃连接连接到前3个Transformer层,则更像是特征来自相邻层的聚合,而不补偿特征细节的损失。遵循Attention U-Net到跳过连接的设计(i.e.附加到二维Conv层,如图1所示),由于低水平特征细节信息的恢复,获得了相当大的收益(Dice达到了86.41%±4.95%,RMSE达到了12.38±3.11).

表5 跳跃连接消融实验的结果
Table 5 Ablation study about skip connections

Number of SCPosition of SCDice/%RMSE3Transformer layer81.87±5.2114.36±4.433Conv(fig.1)86.41±4.9512.38±3.11

4 结束语

本文提出了一种新的分割框架,有效地将Transformer整合在CNN中的变电站电力设备的分割。由此产生的架构SE-Transfomer不仅继承了CNN对局部上下文信息建模的优势,而且还利用变换器来学习全局语义相关性。在山西省梁家庄变电站电力设备数据集上的实验结果验证了所提出的SE-Transfomer的有效性。在未来的工作中,将探索计算和记忆效率的注意机制,以开发以效率为重点的体积分割模型。

参考文献:

[1] HU C,SHI W,JIANG L.Application case of digital twin technology in electric power system[C]∥IOP Conference Series:Materials Science and Engineering.IOP Publishing,2020,788(1):012083.

[2] 周飞燕,金林鹏,董军.卷积神经网络研究综述[J].计算机学报,2017,40(6):1229-1251.

ZHOU F Y,JIN L P,DONG J.Review of convolutional neural network[J].Chinese Journal of Computers,2017,40(6):1229-1251.

[3] HE K,GKIOXARI G,DOLL R P,et al.Mask R-CNN[C]∥Proceedings of the IEEE International Conference on Computer Vision,2017:2961-2969.

[4] RONNEBERGER O,FISCHER P,BROX T.U-net:Convolutional networks for biomedical image segmentation[C]∥International Conference on Medical image computing and computer-assisted intervention.Springer,Cham,2015:234-241.

[5] ZHOU Z,RAHMAN SIDDIQUEE M M,TAJBAKHSH N,et al.Unet++:a nested u-net architecture for medical image segmentation[M]∥Deep learning in medical image analysis and multimodal learning for clinical decision support.Springer,Cham,2018:3-11.

[6] OKTAY O,SCHLEMPER J,FOLGOC L L,et al.Attention u-net:learning where to look for the pancreas[EB/OL].[2023-02-18].https:∥arxiv.org/abs/1804.03999.

[7] 张鹏.图像信息处理中的选择性注意机制研究[D].长沙:国防科学技术大学,2004.

[8] 梁延禹,李金宝.多尺度非局部注意力网络的小目标检测算法[J].计算机科学与探索,2020,14(10):1744-1753.

LIANG Y Y,LI J B.Small objects detection method based on multi-scale non-local attention network[J].Journal of Frontiers of Computer Science and Technology,2020,14(10):1744-1753.

[9] 尹航,范文婷.基于Transformer目标检测研究综述[J].现代信息科技,2021,5(7):14-17.

YIN H,FAN W T.A summary of research on target detection based on transformer[J].Modern Information Technology,2021,5(7):14-17.

[10] HAN K,WANG Y,CHEN H,et al.A survey on vision transformer[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2022,45(1):87-110.

[11] TOUVRON H,CORD M,DOUZE M,et al.Training data-efficient image transformers &distillation through attention[EB/OL].[2023-02-18].https:∥proceedings.mlr.press/v139/touvron21a.

[12] CARION N,MASSA F,SYNNAEVE G,et al.End-to-end object detection with transformers[C]∥European conference on computer vision.Cham:Springer International Publishing,2020:213-229.

[13] CHEN J.Transunet:transformers make strong encoders for medical image segmentation[EB/OL].[2023-02-18].https:∥arxiv.org/abs/2102.04306.

[14] 刘鲲鹏,王滨海,陈西广,等.基于Freeman改进准则的输电线断股识别[J].机电工程,2012,29(2):211-214.

LIU K P,WANG B H,CHEN X G,et al.Damaged cables recognition based on improved Freeman rule[J].Journal of Mechanical &Electrical Engineering,2012,29(2):211-214.

[15] LI C,WANG J,LI Y,et al.Infrared image defect diagnosis through LAB space transform ation[C]∥2019 2nd Intemational Conference on Information Systems andComputer Aided Education (ICISCAE).IEEE,2019:126-130.

[16] LIN G,WANG B,YANG Z.Identification of icing thickness of transmission line based onstrongly generalized convolutional neural network[C]∥2018 IEEE InnovativeSm art Grid Technologies-Asia(ISGT Asia).IEEE,2018:499-504.

[17] 马鹏,樊艳芳.基于深度迁移学习的小样本智能变电站电力设备部件检测[J].电网技术,2020,44(3):1148-1159.

MA P,FAN Y F.Small sample smart substation power equipment component detection based on deep transfer learning[J].Power System Technology,2020,44(3):1148-1159.

[18] WANG B,DONG M,REN M,et al.Automatic fault diagnosis of infrared insulator images based on image instance segmentation and temperature analysis[J].IEEE Transactions on Instnumentation and Measurement,2020,69(8):5345-5355.

[19] 葛玉敏,李宝树,赵书涛,等.基于航拍图像的绝缘子表面状态检测[J].高压电器,2010,46(4):65-68.

GE Y M,LI B S,ZHAO S T,et al.A method baced on aerial images to detect the surface state of insulators[J].High Voltage Apparatus,2010,46(4):65-68.

[20] 金立军,田治仁,高凯,等.基于红外与可见光图像信息融合的绝缘子污秽等级识别[J].中国电机工程学报,2016,36(13):3682-3691.

JIN L J,TIAN Z R,GAO K,et al.Discrimination of insulator contamination grades using information fusion of infrared and visible images[J].Proceedings of the CSEE,2016,36(13):3682-3691.

[21] 刘志颖,缪希仁,陈静,等.电力架空线路巡检可见光图像智能处理研究综述[J].电网技术,2020,44(3):1057-1069.

LIU Z Y,MIAO X R,CHEN J,et al.Review of visible image intelligent processing for transmission line inspection[J].Power System Technology,2020,44(3):1057-1069.

[22] WU Z,WU L,MENG Q,et al.Unidrop:a simple yet effective technique to improve transformer without extra cost[EB/OL].[2023-02-18].https:∥arxiv.org/abs/2104.04946.

[23] HUANG Z,LIANG D,XU P,et al.Improve transformer models with better relative position embeddings[EB/OL].[2023-02-18].https:∥arxiv.org/abs/2009.13658.

[24] WANG W,TU Z.Rethinking the value of transformer components[C]∥Proceedings of the 28th International Conference on Computational Linguistics,2020:6019-6029.

[25] CSORD S R,IRIE K,SCHMIDHUBER J.The devil is in the detail:simple tricks improve systematic generalization of transformers[EB/OL].[2023-02-18].https:∥arxiv.org/abs/2108.12284.

[26] SHLEIFER S,WESTON J,OTT M.Normformer:Improved transformer pretraining with extra normalization[EB/OL].[2023-02-18].https:∥arxiv.org/abs/2110.09456.

(编辑:薄小玲)

Baidu
map