新冠肺炎CXR图像分类新模型COVID-SERA-NeXt

谢娟英,夏 琴

(陕西师范大学 计算机科学学院,西安 710119)

摘 要:新型冠状病毒(COVID-19)感染者胸部X射线(Chest X-ray,CXR)图像不同于正常人,是诊断的有效依据。在ResNeXt模型基础上,加入交叉堆叠的通道注意力模块和残差注意力模块以及提出的维度降解模块,提出了针对COVID-19 CXR图像分类的COVID-SERA-NeXt模型。对公开访问的基准数据集COVIDx进行图像分类,实验结果显示,提出的COVID-SERA-NeXt模型在多项指标上优于其基础模型ResNeXt,其中准确率、宏召回率分别提高到96.11%、95.46%.经过ChestX-ray8医学图像预训练的COVID-SERA-NeXt模型对COVIDx数据集的分类性能更进一步提升。

关键词:新型冠状病毒肺炎;计算机辅助诊断;注意力机制;深度卷积神经网络;CXR图像;分类

2019年底至今,新型冠状病毒肺炎(简称新冠肺炎)在全球蔓延[1],严重威胁人类健康。新型冠状病毒是严重急性呼吸系统综合征冠状病毒2型(severe acute respiratory syndrome coronavirus 2,SARS-CoV-2)[2],通过呼吸道传播,导致患者肺部发炎、呼吸困难,以至于死亡[3]。早期症状包括发热、干咳、咽痛、头痛、肌肉酸痛和疲乏等[4-5]。新型冠状病毒感染者或无症状病毒携带者往往表现出与其它急性呼吸道病毒患者非常类似的病症特征[4-6],因此识别新型冠状病毒感染者或无症状病毒携带者是阻止新冠肺炎传播亟待解决的问题。

逆转录聚合酶链反应检测(reverse transcription-polymerase chain reaction,RT-PCR)[7]是最常见的新冠肺炎病例诊断检测方法。该检测通过鼻咽或口咽拭子收集样本,进行病毒基因测序,如果与已知的新型冠状病毒高度同源,则确诊。然而,约翰·霍普金斯医学院的研究表明,多达20%的逆转录聚合酶链反应检测可能产生假阴性[8]。尽管瑞士日内瓦非营利研究中心创新诊断基金会在实验室环境下获得100%的灵敏度和至少96%特异性,但逆转录聚合酶链反应检测的临床灵敏度仅为66%~80%[9].

检查胸部X射线图像(Chest X-ray,CXR)、查看肺部是否有肿胀、炎症或者积液是新冠肺炎诊断的有效途径。便携式X射线扫描仪可在隔离室内成像,降低被检测者交叉感染的风险[10]。JACOBI et al[11]认为,便携X射线扫描仪使人们更加依赖胸部CXR图像进行诊断,并作为传统逆转录聚合酶链反应检测的补充,实现对新冠肺炎感染者的诊断[12]

深度学习能学习图像的有效特征,已成为医学图像计算的有效手段[13-16],可以帮助医生快速准确地分析X射线图像中的异常,检测新冠肺炎感染者。

本文基于深度学习方法对新冠肺炎进行分类,在ResNeXt模型基础上,集成多种类型的注意力模块,在COVIDx数据集实现高准确度的CXR图像3分类。针对COVIDx数据集3分类任务和ResNeXt模型1 000分类任务类别数差异巨大的问题,提出了维度降解模块来缓解特征突降导致的特征提取不充分问题;针对目前新冠肺炎CXR图像数据稀缺问题,提出借助大规模医学图像预训练策略,提高低资源下的新冠肺炎CXR图像分类准确度。本文主要贡献有:

1) 提出特征维度降解模块,防止特征突降带来的特征提取不充分问题;

2) 将通道注意力和残差注意力模块交叉堆叠,增强提取特征的表达能力和不同类别图像的区分能力;

3) 在ResNeXt模型基础上,添加交叉堆叠的通道注意力和残差注意力模块及维度降解模块,提出COVID-SERA-NeXt模型;

4) 在公开访问数据集COVIDx上测试提出的COVID-SERA-NeXt模型,并与ChestX-ray8医学图像预训练、COVIDx数据集微调参数的COVID-SERA-NeXt模型进行比较。实验表明医学图像预训练进一步提升了模型分类准确度,验证了医学图像预训练对COVIDx数据集分类任务的有效性。

1 相关工作

1.1 新冠肺炎辅助诊断

胸部CXR图像是诊断各种肺部疾病广泛使用的影像,医生通过筛查病人胸部CXR图像进行早期肺炎诊断[17]。基于深度学习的计算机辅助诊断引起诸多学者关注[15],成为基于胸部CXR图像检测新冠肺炎的有效手段[18-24]。WANG et al[18]搜集整理用于新冠肺炎CXR图像分类的5个公开数据集,取名为COVIDx数据集,并针对该数据集提出COVID-Net模型。此后,基于COVIDx数据集的各种深度学习模型被相继提出。HAO et al[19]结合无监督的ResNet-50与高斯分类器,提出CNN-GP混合模型。JIA et al[20]结合MobileNet模型不同层特征,提出Modified MobileNet模型。KARIM et al[21]基于Grad-CAM++和逐层相关性传播技术提出DeepCOVIDExplainer模型。此外,针对新冠肺炎数据集3分类任务的深度学习模型还有COVIDx-CT[22]、COVID-ResNet[23]、DarkCovidNet[24]等。上述深度学习模型的优势是能学习到CXR图像的像素级信息,但新冠肺炎CXR数据集样本量不足对深度学习效果的影响无法克服。

1.2 注意力机制

注意力机制是对人类认知功能的模拟,能从大量信息中快速筛选出高价值信息,在计算机视觉、自然语言处理、语音识别等领域得到广泛应用。注意力机制对输入信号的不同部分赋予不同权重,将可用资源偏向输入信号的信息丰富部分,抽取出关键和重要的信息,提升模型准确性和可解释性。计算机视觉中的注意力机制包括空间域、通道域、混合域3种。

JADERBERG et al[25]提出空间转换器模块,自动对图片中的空间域信息进行变换,提取关键特征。WANG et al[26]提出了非局部模块,通过计算特征图中空间点间的相关性矩阵生成有效注意力图,直接融合全局空间信息,而不需通过堆叠多个卷积层获取全局信息。

SE(Squeeze and Excitation)模块由HU et al[27]提出,通过构建通道间的相互依赖关系,重新校准通道间的特征响应,提高网络表达能力。WANG et al[28]在SENet基础上,提出一种不降维的局部跨信道交互策略和自适应选择一维卷积核大小方法,用于图像分类、目标检测和实例分割,提升了效率。

空间域忽略了通道域的信息,将每个通道的图片特征同等处理,使得空间域变换局限在原始图片特征提取阶段,应用在神经网络其他层的可解释性不强。通道域注意力对一个通道内的信息直接全局平均池化,忽略了通道内的局部信息。因此,WOO et al[29]将通道注意力和空间注意力结合,提出CBAM(convolutional block attention module)模块,提高CNN网络表达能力,强调和细化中间特征的内容和位置。LI et al[30]融合通道注意力和空间注意力,提出了SGE(spatial group-wise enhance)模块,将通道划分为组,组内通过空间注意力自主学习增强表征并抑制噪声。

1.3 深度图像分类

图像分类任务是计算机视觉领域的基础任务,深度学习促进图像分类研究的空前发展。SZEGEDY et al[31]提出GoogLeNet模型,即Inception v1模型,由Inception结构作为基本模块,用卷积对输入通道进行降维,减少参数量,用全局平均池化取代最后一层全连接。随后Inception v2[32]、Inception v3[33]、Inception v4[34]等模型相继被提出。HE et al[35]在VGG19基础上,提出ResNet模型,通过短路机制加入残差单元,解决深度学习的梯度消失等退化问题。XIE et al[36]通过融合ResNet模型的层次堆叠、残差连接设计策略,以及Inception模型的split transform merge网络体系结构,提出一种同质多分支结构模型ResNeXt,在ImageNet分类数据集的性能胜过ResNet-101/152、ResNet200、Inception-v3和Inception-ResNet-v2,101层的ResNeXt模型比ResNet200模型精度高,但复杂度仅为后者的50%.此外,ResNeXt模型与所有Inception系列模型相比,设计更简单。鉴于ResNeXt模型的简洁高效及其模块化设计策略和优异的分类性能,本文以ResNeXt模型作为基础模型。

2 实验数据集

本文使用WANG et al[18]于2020年搜集整理的COVIDx数据集,该数据集是目前可获取的新型冠状病毒肺炎病例数量最大的开放性基准数据集,包含来自13 870名患者的共15 475张具有临床代表性的胸部CXR图像,其中266例新型冠状病毒肺炎患者、5 538例非新型冠状病毒肺炎患者、8 066例未感染肺炎者(正常人),由5个公开可用数据集整合而成。包括:1) COVID-19 Image Data Collection[18]数据集的非新型冠状病毒肺炎病例和新型冠状病毒肺炎病例;2) COVID-19 Chest X-ray Dataset Initiative[37]数据集的新型冠状病毒肺炎病例;3) ActualMed COVID-19 Chest X-ray Dataset Initiative[38]数据集的新型冠状病毒肺炎病例;4) RSNA Pneumonia Detection Challenge dataset[39]数据集的无肺炎(即正常)和非新型冠状病毒肺炎病例;5) COVID-19 radiography database[40]数据集的新型冠状病毒肺炎病例。COVIDx数据集部分图像示例如图1所示,(a)-(e)列分别是上述5个数据集的3张CXR图像。COVIDx数据集不同感染类型的图像、患者数量分布如图2所示。

图1 COVIDx数据集部分胸部CXR图像
Fig.1 Examples of CXR images of COVIDx dataset

图1可见,COVIDx数据集来自5个不同数据集的图像亮度、角度和尺度等存在差异,样本存在多样性和广泛性。图2显示,COVID-19图像数量和患者数量与其他两类差别很大,存在严重的类别不平衡问题,给图像分类任务带来巨大挑战。

图2 COVIDx数据集中不同感染类型数据分布
Fig.2 Data distribution of different infection types
in the COVIDx dataset

3 模型与方法

3.1 注意力模块

注意力机制允许网络重新校准提取的特征,从而自适应地学习目标特征。获得ILSVRC 2017比赛冠军的SENet模型[27]的SE(squeeze and excitation)模块是一种典型的通道域注意力机制,通过Squeeze操作整合特征图不同通道的全局信息,然后利用Excitation模块为对应通道的特征加权,强化对任务有效的特征,弱化无效特征,实现特征通道的自适应校准。SENet和ResNeXt结合成为SE-ResNeXt模型[27]。本文采用SE-ResNeXt模型实现通道注意力。

残差注意力网络[41]由多个注意力模块堆叠而成,能够捕获不同类型和不同层次的注意力信息,不同模块的注意力感知特征随层数加深而自适应变化。本文的残差注意力模块使用文献[41]的注意力模块。需要注意的是,残差注意力网络涉及的通道注意力和SENet的通道注意力不同,SENet由全局平均池化获取通道间关系,与空间位置无关;残差注意力网络的注意力模块中每个位置点的权重既与本通道其他位置点相关,也与其他通道位置点相关,与空间相关。因此,受CBAM[29]顺序堆叠通道和空间注意力工作启发,本文融合多种类型注意力模块,以期提高对COVIDx数据集图像的分类效果。

3.2 维度降解模块

ResNeXt模型针对ImageNet图像分类任务,COVIDx数据集由多个开源数据集组合而成,各数据集,甚至同一数据集,图像大小不一,最大为4 757×5 623像素,最小为156×157像素。另外ImageNet图像分类的类别数为1 000,而COVIDx图像类别数为3.针对图像大小不一问题,本文统一将COVIDx图像调整为256×256,与ImageNet数据集的图像大小一致。针对图像类别差异悬殊,本文对原始ResNeXt模型进行了改进。

图3展示了原始ResNeXt模型,以及本文对ResNeXt模型的改进,图3(a)是原始ResNeXt模型,图3(b)是在原始ResNeXt模型上增加输入1 000维输出3维的全连接层,并将得到的模型训练COVIDx数据集,图3(c)是将维度降解模块插入ResNeXt模型后,训练COVIDx数据集的网络结构图。

图3(a)可见,输入图像为256×256×3,经过卷积层1,输出尺寸为112×112×64的特征图。图中卷积层2~5由多个图3(a)左侧虚线框中所示的残差块堆叠而成,残差块每层卷积的通道数不同,C1C2C3表示通道数。卷积层5输出的特征图经过全局平均池化(GAP),将特征图高度和宽度缩减为1,得到一个2 048维的向量。针对1 000类的ImageNet图像分类任务,全连接层将2 048维的向量转换为1 000维的向量。

图3(b)在图3(a)的全连接层后增加一个全连接层,将图3(a)输出的1 000维向量变换为3维,用于训练和分类COVIDx数据集样本。由于ImageNet和COVIDx两个数据集的类别数分别为1 000类和3类,图3(b)第二个全连接层的特征突降,可能导致特征提取不充分和信息丢失问题。

为此,提出了图4所示的维度降解模块,由3个子模块ConvBn2d组成,以充分提取图像特征。然后,丢弃图3(a)ResNeXt模型的全局平均池化和全连接层,添加图4的维度降解模块,接着是新的全局平均池化和全连接层,得到图3(c)网络模型,以训练和分类COVIDx图像。

图3 ResNeXt网络结构及其改进
Fig.3 Architecture of ResNeXt and our improvements

图4的ConvBn2d子模块包括不同参数设置的二维卷积层Conv、批归一化处理层BN和非线性激活操作Leaky ReLU,二维卷积层Conv调整特征图的通道数,并保持特征图分辨率不变,批归一化处理BN缓解网络中梯度消失问题,使模型训练更稳定,非线性激活函数采用渗漏型整流线性单元函数Leaky ReLU,参数值为0.1.图4维度降解模块的3个ConvBn2d子模块用于降低特征维度,具体过程为:输入7×7×2 048的特征图,经过卷积核大小为3×3的第一个ConvBn2d子模块后,输出7×7×512的特征图;然后经过卷积核大小为1×1的第二个ConvBn2d,输出特征图变为7×7×1 024;最后经过卷积核大小为3×3的第三个子模块ConvBn2d,输出特征图变为7×7×512.

图4 维度降解模块
Fig.4 Dimension reduction module

图4的维度降解模块旨在改变ResNeXt模型,使其更好地适用于COVIDx数据集CXR图像的3分类任务,为此,需要尽可能降低最后输入全连接的特征图维度,同时保持特征的分辨能力,因此,设计了纺锤形的维度降解模块,维度降解模块结构的设计借鉴了MobileNetV2模型[42]中inverted residuals模块的纺锤形结构,通过扩展层(Expansion Layer)扩展维度,抵抗由于特征突降和非线性函数导致的信息丢失,保证模型提取到足够多的有用信息。第二个子模块ConvBnd的作用是通过更多的卷积核,弥补第一个子模块ConvBnd可能引起的信息丢失。

3.3 COVID-SERA-NeXt模型

通道注意力SE模块加入ResNeXt模型得到的SE-ResNeXt模型[27]是由一系列相同拓扑结构带有通道注意力的模块堆叠而成,用全局上下文对不同通道进行权值标定,调整通道依赖,然而,仅使用通道信息不能充分利用全局上下文抽取图像语义信息。

残差注意力模型[41]是由一系列残差注意力模块堆叠而成,不同模块的注意感知特征随着层数的加深而自适应变化,浅层注意力模块主要集中于图像背景,深层注意力模块则聚焦于待分类图像,深浅层多注意力模块增强了特征表达能力。得益于残差注意力模型的优异性能,本文在ResNeXt模型基础上,先加入交叉堆叠的通道注意力和残差注意力模块,再加入维度降解模块,提出COVID-SERA-NeXt模型,旨在通过融合更多类型的注意力模块,增强模型的特征表达能力和对不同类图像的区分能力,注意力交叉堆叠的优势补充,防止有效特征丢失,且每个类型的特征不会随着网络深度增加出现远程遗忘。值得说明的是,本文尝试了3种不同的模块组合方式:1) 先堆叠通道注意力模块,后堆叠残差注意力模块;2) 先堆叠残差注意力模块,后堆叠通道注意力模块;3) 通道注意力和残差注意力模块交叉堆叠。基于COVIDx数据集的实验表明,第三种方式能够实现对COVIDx图像的最好分类结果。

COVID-SERA-NeXt模型如图5所示,4个通道注意力和3个残差注意力交叉堆叠,随后是维度降解模块,通道注意力模块是黄色框的SE-ResNeXt模块,灰色虚线框表示残差注意力模块,3个浅蓝色ConBn2d构成维度降解模块。表1是模型结构细节与具体参数。

图5 本文提出的COVID-SERA-NeXt模型架构
Fig.5 Architecture of our proposed COVID-SERA-NeXt model

表1 提出的COVID-SERA-NeXt模型结构细节
Table 1 Details of the proposed COVID-SERA-NeXt
model for COVIDx dataset

LayerOutput sizeAttention-56Conv1112×1127×7, 64, stride 2Conv256×563×3, max pool, stride 21×1,128 3×3,128C=321×1,256()×3Channel attention56×56r=16Attention module56×56Attention×1Conv328×281×1,256 3×3,256C=321×1,512()×4Channel attention28×28r=16Attention module28×28Attention×1Conv414×141×1,5123×3,512C=321×1,1 024()×6Channel attention14×14r=16Attention module14×14Attention×1Conv57×71×1,1 0243×3,1 024C=321×1,2 048()×3Channel attention7×7r=16维度降解模块7×73×3,5121×1,1 0243×3,512()×1GAP, FC, Softmax3

3.4 模型预训练

预训练能提供更好的模型初始化,增强模型泛化能力,加速任务模型收敛速度和提升模型性能。深度学习模型通常采用预训练-微调模式,预训练通常在具有大量标签的大规模基准数据集下(如ImageNet)进行;然后对预训练网络针对目标任务进行微调训练,预训练数据集通常比目标任务数据集样本量大很多。预训练可帮助模型学习通用特征,用于目标任务。ImageNet是深度学习预训练模型最常用的数据集,鉴于ImageNet自然场景图像和COVID-19 CXR医学图像的巨大差异,本文选择与COVID-19 CXR图像数据相似度更高的ChestX-ray8数据集预训练提出的COVID-SERA-NeXt模型。

ChestX-ray8是一个胸部X射线图像CXR数据集,用于多标签分类与检测,包含来自32 717个患者的108 948张正面CXR图像,每张图像代表一种或者多种疾病或者正常。数据集包含8种常见胸腔疾病:肺不张(Atelectasis)、心脏肥大(Cardiomegaly)、积液(Effusion)、肿块(Infiltration)、结节(Mass)、肺炎(Pneumonia)和气胸(Pneumathorax).

使用ChestX-ray8数据集对本文提出的COVID-SERA-NeXt模型进行预训练,保存最优模型,使用COVIDx数据集微调模型参数。带有预训练和微调的COVID-SERA-NeXt模型如图6所示。

图6 采用ChestX-ray8预训练和COVIDx微调的COVID-SERA-NeXt模型
Fig.6 COVID-SERA-NeXt model with pre-training by ChestX-ray8 and fine-tuning by COVIDx

4 实验结果与分析

本文实验操作系统为Ubuntu 16.04,在单个型号为NVIDIA GeForce RTX 2080 GPU上训练模型。基于PyTorch 1.4.0深度学习框架构建分类网络,CUDA版本为9.0.使用Adam优化器更新网络模型权重,初始学习率为0.0001,学习率衰减值为0.001,β1参数为0.9,β2参数为0.99.使用交叉熵损失函数,batch size为32,最大训练次数为30,保留最优结果模型。按照COVID-Net提供的数据划分脚本划分训练集和测试集,训练集包含13 918张图像,测试集包含1 579张图像。实验每训练一轮,在测试集上测试结果,保留最优测试结果。

COVIDx数据集的3个类别Normal、Pneumonia、COVID-19存在类别不平衡。处理类别不平衡问题的欠采样、过采样或数据增强会改变数据类别分布,且过采样会导致过拟合问题,本文采用阈值调整方法缓解类别不平衡问题,在损失函数中给样本不足类别赋以较大权重,以弥补类别不平衡问题,Normal、Pneumonia、COVID-19等3个类别的损失函数权重分别为0.05,0.05,1.00.

使用准确率(Accuracy)、宏召回率(Macro-Recall)、宏精确率(Macro-Precision)、宏F1值(Macro-F1)4种评价指标评估模型有效性。各指标定义为式(1)-(4).

(1)

(2)

(3)

(4)

式中:Nrec表示正确预测的样本数,Nall表示样本总数;式(2)-(4)分别表示Macro-Recall、Macro-Precision、Macro-F1,其中n表示类别数,RiPi为一对其余策略下,第i类的召回率和精确率。

可视化是解释实验结果的重要手段。将其引入新冠肺炎CXR图像分类,不仅可以更深入地了解与新冠肺炎阳性病例相关的关键因素,帮助临床医生进行更好筛查诊断,还可验证模型是根据图像哪些信息做出的决策。CAM、Grad-CAM、Grad-CAM++是计算机视觉领域实验结果可视化的重要技术,由于Grad-CAM不需要重新训练模型且准确度高,本文使用Grad-CAM对实验结果进行可视化解释,以类激活图方式展示模型通过哪些像素判定图像类别。

4.1 数据增强测试

数据增强用于增加训练数据,常用的数据增强技术包括裁剪、填充、翻转等,从不同视角刻画同一图像,提高训练模型的准确性和学习能力。本文仅对训练集图像进行增强,测试集图像是没有增强的原始图像,增强方式为线上增强,将数据送入学习模型时,进行小批量扰动处理并保留关键语义内容,从而使得对每一轮训练数据,模型将“看到”完全不同的数据集,避免网络记忆训练数据,提高模型泛化能力。这种方式增强了数据多样性,但未显式增加数据集图像数量。

实验采用的数据增强策略包括:水平翻转、垂直翻转、随机仿射变换、色彩抖动。分别以0.5概率进行以上图像变换。以Accuracy、Macro-Recall指标验证数据增强对提出的COVID-SERA-NeXt模型性能的影响,实验结果如图7所示。

图7 数据增强对模型性能的影响
Fig.7 Influence on model performance from data augmentation

图7结果显示,同时使用翻转、仿射变换、色彩抖动3种数据增强提高了COVID-SERA-NeXt模型的性能,表明数据增强对COVIDx数据集图像分类很有效。另外,图7实验结果还显示,无论采用3种数据增强方式的哪种方式增加数据,COVID-SERA-NeXt模型的准确率都有不同程度的提高,但模型的宏召回率Macro-Recall都或多或少低于没有使用数据增强时的模型宏召回率,只有3种数据增强方式联合使用时,模型的宏召回率才得到提升,同时准确率得到大幅提升。

4.2 消融实验

为了分析不同模块对模型性能的影响,本文设计了不同的消融实验,验证维度降解模块、通道注意力模块和残差注意力模块的性能。实验结果见表2,所有实验在相同环境下进行,表中加粗数字表示最优结果。

表2 各模块对ResNeXt模型的影响测试
Table 2 Experiment results of adding different modules to ResNeXt %

ModelAccuracyMacro-F1Macro-precisionMacro-recallResNeXt95.4194.5194.8894.16ResNeXt+通道注意力模块95.6094.8095.4294.22ResNeXt+残差注意力模块95.6694.2095.1993.29ResNeXt+维度降解模块95.0394.4194.6394.19ResNeXt+残差注意力模块+维度降解模块95.9894.8195.2394.40ResNeXt+通道注意力模块+维度降解模块95.7394.7794.9994.55ResNeXt+通道注意力模块+残差注意力模块95.5495.0595.4594.69ResNeXt+通道注意力模块+残差注意力模块+维度降解模块96.1194.9994.5895.46

表2消融实验结果可见,维度降解模块、通道注意力模块和残差注意力模块三模块的任何两个组合,都可以使ResNeXt模型的性能在一定程度上得到提升。全部三模块组合能使ResNeXt模型对COVIDx数据集的分类准确率达到96.11%.由此可见,在ResNeXt模型基础上,先加入交叉堆叠的通道注意力和残差注意力模块,再加入提出的维度降解模块,即本文COVID-SERA-NeXt模型对COVIDx数据集分类准确率最好。

4.3 不同模型性能比较

不同基础模型、不同训练策略会影响模型性能,本小节将比较基准模型COVID-Net[18]、CNN-GP[19]、Modified MobileNet[20]和ResNeXt[36],与本文COVID-SERA-NeXt模型和采用ChestX-ray8预训练的COVID-SERA-NeXt模型的性能,实验结果如表3所示,加粗表示最优结果。需要说明的是,表中“-”表示原始模型CNN-GP和Modified MobileNet没有相应评价指标的值。另外, CNN-GP和Modified mobileNet模型的准确率(Accuracy)来自原始文献,COVID-Net和ResNeXt的实验结果是在本文实验环境下运行的结果,因为COVID-Net原文献使用的评价指标是评价模型在单个子类的性能,本文使用的评价指标评价模型对3个子类的平均性能;ResNeXt模型没有在COVIDx数据集测试过。因此,这两个模型被重新运行。

表3 各模型性能的比较
Table 3 Performance comparison of different models %

ModelAccuracyMacro-F1Macro-PrecisionMacro-RecallCOVID-Net91.9091.3691.4091.33CNN-GP93.60---Modified MobileNet95.00---ResNeXt95.4194.5194.8894.16COVID-SERA-ResNeXt96.1194.9994.5895.46COVID-SERA-ResNeXt (ChestX-ray8预训练)96.2194.9995.4195.82

表3实验结果显示,采用ChestX-ray8数据集预训练的COVID-SERA-ResNeXt模型在各项指标均取得最优值,没有预训练的COVID-SERA-ResNeXt模型比基础模型ResNeXt在准确率、宏调和指数F1和宏召回率Macro-Recall均有提升,但在宏精度指标Macro-Precision上略次于ResNeXt模型;然而COVID-SERA-ResNeXt模型在各项指标上均远优于最早用于COVIDx数据集分类的COVID-Net模型;同时,COVID-SERA-ResNeXt模型的准确率Accuracy也优于CNN-GP模型和Modified MobileNet模型。

由此可见,本文提出的用于COVID-19 CXR图像分类的COVID-SERA-ResNeXt模型非常有效,使用ChestX-ray8数据集进行预训练,可以进一步提升模型的性能。

4.4 结果可视化

使用Grad-CAM对模型COVID-SERA-ResNeXt的实验结果进行可视化,采用类激活图展示模型通过哪些像素判定图像类别。图8展示了部分测试图像的类激活图, (a)列分别为Normal、Pneumonia、COVID-19类别的一个有代表性的原始图像,(b)-(i)列展示了不同模型对(a)列3张CXR图像学习的结果。色调越冷区域对模型分类结果的影响越大。

从图8各模型实验结果的类激活图可见,本文提出的COVID-SERA-ResNeXt模型提取的分类特征主要位于CXR图像的胸部或胸部感染区域,有较强的分类识别能力。带有通道注意力模块的ResNeXt模型(f)提取的特征最差,接着是(d)带有残差注意力模块的ResNeXt模型和(h)带有通道注意力和残差注意力的ResNeXt模型。

图8实验结果还显示带有本文维度降解模块的模型(c)ResNeXt+维度降解模块、(e)ResNeXt+维度降解模块+残差注意力模块、(g)ResNeXt+通道注意力模块+维度降解模块和(i)ResNeXt+通道注意力+残差注意力+维度降解模块(即本文提出的COVID-SERA-ResNeXt模型)的特征提取能力更强,提取的特征均集中在CXR图像的胸部或胸部感染区域。说明提出的特征降解模块对于提取具有强分类意义的特征很重要。

另外,对于拍摄位置不规范、存在残影、前后景区分不明显的CXR图像,如图8第二行的Pneumonia CXR图像,本文提出的COVID-SERA-ResNeXt模型依然能够准确提取胸部感染区域的特征。

(a)原图; (b) ResNeXt模型; (c) ResNeXt+维度降解模块; (d) ResNeXt+残差注意力模块; (e) ResNeXt+维度降解模块+残差
注意力模块; (f) ResNeXt+通道注意力模块; (g) ResNeXt+通道注意力模块+维度降解模块; (h) ResNeXt+通道注意力+
残差注意力; (i) ResNeXt+通道注意力+残差注意力+维度降解模块(本文COVID-SERA-ResNeXt模块)
图8 各模型的类激活图
Fig.8 Class activation graphs of different models

5 结论

提出了针对COVID-19 CXR图像分类的COVID-SERA-NeXt模型。在公开访问数据集COVIDx的实验结果验证了COVID-SERA-NeXt模型在多项指标上优于基础模型ResNeXt,准确率、宏召回率分别达到96.11%、95.46%.ChestX-ray8数据集预训练的COVID-SERA-NeXt模型对COVIDx数据集的分类性能更优,在准确率、宏召回率、宏精确率和宏F1各项指标均达到最优。然而,如何克服残影、前后景区分不明显等图像模糊对模型分类性能的影响仍需要进一步研究。

参考文献:

[1] CUCINOTTA D,VANELLI M.Who declares COVID-19 a pandemic[J].Acta Bio Medica:Atenei Parmensis,2020,91(1):157.

[2] WU F,ZHAO S,YU B,et al.A new coronavirus associated with human respiratory disease in China[J].Nature,2020,579(7798):1-8.

[3] QUEENSLAND H.How does COVID-19 spread and how can I stop myself from getting it[EB/OL].[2021-03-09].https:∥www.health.qld.gov.au/news-events/news/novel-coronavirus-covid-19-how-it-spreads-transmission-infection-prevention-protection.

[4] WANG Y X,WANG Y Y,CHEN Y,et al.Unique epidemiological and clinical features of the emerging 2019 novel coronavirus pneumonia (COVID-19) implicate special control measures[J].Journal of Medical Virology,2020,92(6):568-576.

[5] CHEN N S,ZHOU M,DONG X,et al.Epidemiological and clinical characteristics of 99 cases of 2019 novel coronavirus pneumonia in Wuhan,China:a descriptive study[J].The Lancet,2020,395(10223):507-513.

[6] WANG C,YU H J,HORBY P W,et al.Comparison of patients hospitalized with influenza a subtypes H7N9,H5N1,and 2009 pandemic H1N1[J].Clinical Infectious Diseases,2014,58(8):1095-1103.

[7] WANG W L,XU Y L,GAO R Q,et al.Detection of SARS-CoV-2 in different types of clinical specimens[J].Jama,2020,323(18):1843-1844.

[8] KUCIRKA L M,LAUER S A,LAEYENDECKER O,et al.Variation in false-negative rate of reverse transcriptase polymerase chain reaction-based SARS-CoV-2 tests by time since exposure[J].Annals of Internal Medicine,2020,173(4):262-267.

[9] WALTZ,E.Testing the tests:which COVID-19 tests are most accurate[EB/OL].[2021-03-09].https:∥spectrum.ieee.org/the-human-os/biomedical/diagnostics/testing-tests-which-covid19-tests-are-most-accurate

[10] RUBIN G D,RYERSON C J,HARAMATI L B,et al.The role of chest imaging in patient management during the COVID-19 pandemic:a multinational consensus statement from the fleischner society[J].Radiology,2020,296(1):172-180.

[11] JACOBI A,CHUNG M,BERNHEIM A,et al.Portable chest X-ray in coronavirus disease-19 (COVID-19):a pictorial review[J].Clinical Imaging,2020,64:35-42.

[12] NAIR A,RODRIGUES J C L,HARE S,et al.A british society of thoracic imaging statement:considerations in designing local imaging diagnostic algorithms for the COVID-19 pandemic[J].Clinical Radiology,2020,75(5):329-334.

[13] 谢娟英,刘然.基于深度学习的目标检测算法研究进展[J].陕西师范大学学报 (自然科学版),2019,47(5):1-9.

XIE J Y,LIU R.The study progress of object detection algorithms based on deep learning[J].Journal of Shaanxi Normal University (Natural Science Edition),2019,47(5):1-9.

[14] 谢娟英,侯琦,曹嘉文.深度卷积自编码图像聚类算法[J].计算机科学与探索,2019,13(4):586-595.

XIE J Y,HOU Q,CAO J W.Image clustering algorithms by deep convolutional autoencoders[J].Journal of Frontiers of Computer Science and Technology,2019,13(4):586-595.

[15] XIE J Y,LIU R,LUTTRELL I J,et al.Deep learning based analysis of histopathological images of breast cancer[J].Frontiers in Genetics,2019,10:80.

[16] XIE J Y,PENG Y.The head and neck tumor segmentation using NNU-Net with spatial and channel ‘squeeze & excitation’ blocks[C]∥Proceedings of 3D Head and Neck Tumor Segmentation in PET/CT Challenge,Peru.Berlin:Springer,2020:28-36.

[17] WAN S,WAN M,FAUZI M,et al.Classification of infection and fluid regions in chest X-ray images[C]∥Proceedings of 2016 International Conference on Digital Image Computing:Techniques and Applications (DICTA),Gold Coast.Piscataway:IEEE,2016:1-5.

[18] WANG L,LIN Z Q,WONG A.COVID-net:a tailored deep convolutional neural network design for detection of covid-19 cases from chest x-ray images[J].Scientific Reports,2020,10(1):1-12.

[19] HAO H,DIDARI S,WOO J O,et al.Highly efficient representation and active learning framework for imbalanced data and its application to COVID-19 X-ray classification[J].Computer Science,2021:1-16[2021-05-06].http:∥arxiv.org/abs/2103.05109.

[20] JIA G Y,LAM H K,XU Y J.Classification of COVID-19 chest X-ray and CT images using a type of dynamic CNN modification method[J].Computers in Biology and Medicine,2021,134:104425.

[21] KARIM M R,DOHMEN T,COCHEZ M,et al.DeepCOVIDExplainer:explainable COVID-19 diagnosis from chest X-ray images[C]∥IEEE International Conference on Bioinformatics and Biomedicine,South Korea.Piscataway:IEEE,2020:1034-1037.

[22] GUNRAJ H,WANG L,WONG A.Covidnet-CT:a tailored deep convolutional neural network design for detection of COVID-19 cases from chest CT images[J].Frontiers in Medicine,2020,608525.

[23] FAROOQ M,HAFEEZ A.COVID-RESnet:a deep learning framework for screening of COVID19 from radiographs[J/OL].Computer Science,http:∥arxiv.org/abs/2003.14395.

[24] OZTURK T,TALO M,YILDIRIM E A,et al.Automated detection of COVID-19 cases using deep neural networks with X-ray images[J].Computers in Biology and Medicine,2020,121:103792.

[25] JADERBERG M,SIMONYAN K,ZISSERMAN A,et al.Spatial transformer networks[J].Advances in Neural Information Processing Systems,2015,28:2017-2025.

[26] WANG X L,GIRSHICK R,GUPTA A,et al.Non-local neural networks[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,Utah.Piscataway:IEEE,2018:7794-7803.

[27] HU J,SHEN L,SUN G.Squeeze-and-excitation networks[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,Utah.Piscataway:IEEE,2018:7132-7141.

[28] WANG Q L,WU B G,ZHU P F,et al.ECA-Net:efficient channel attention for deep convolutional neural networks[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,Virtual.Piscataway:IEEE,2020:1-12.

[29] WOO S,PARK J,LEE J Y,et al.CBAM:convolutional block attention module[C]∥Proceedings of the European Conference on Computer Vision,Weiss.Berlin:Springer,2018:3-19.

[30] LI X,HU X L,YANG J.Spatial group-wise enhance:improving semantic feature learning in convolutional networks[J/OL].Computer Science,2019:1-10[2019-05-25].http:∥arxiv.org/abs/1905.09646.

[31] SZEGEDY C,LIU W,JIA Y Q,et al.Going deeper with convolutions[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,Boston.Piscataway:IEEE,2015:1-9.

[32] IOFFE S,SZEGEDY C.Batch normalization:accelerating deep network training by reducing internal covariate shift[C]∥International Conference on Machine Learning,Lille.PMLR,2015:448-456.

[33] SZEGEDY C,VANHOUCKE V,IOFFE S,et al.Rethinking the inception architecture for computer vision[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,Las Vegas.Piscataway:IEEE,2016:2818-2826.

[34] SZEGEDY C,IOFFE S,VANHOUCKE V,et al.Inception-v4,inception-resnet and the impact of residual connections on learning[C]∥Thirty-First AAAI Conference on Artificial Intelligence,Carbe Hiltoo,San Juan,Puerto Rico.AAAI,2017:1-3.

[35] HE K M,ZHANG X Y,REN S Q,et al.Deep residual learning for image recognition[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,Las Vegas.Piscataway:IEEE,2016:770-778.

[36] XIE S,GIRSHICK R,DOLLR P,et al.Aggregated residual transformations for deep neural networks[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,Hawaii.Piscataway:IEEE,2017:1492-1500.

[37] CHUNG A.COVID-19 chest X-ray data initiative[EB/OL].[2020-03-09].https:∥github.com/agchung/Figure1-COVID-chestxray-dataset.

[38] CHUNG A.Actualmed COVID-19 chest X-ray data initiative[EB/OL].[2020-03-09].https:∥github.com/agchung/Actualmed-COVID-chestxray-dataset.

[39] Radiological Society of North America.RSNA pneumonia detection challenge[EB/OL].[2020-03-09].https:∥www.kaggle.com/c/rsna pneumonia detec tion challenge/data.

[40] Radiological Society of North America.COVID-19 radiography database[EB/OL].[2020-03-09].https:∥www.kaggle.com/tawsifurrahman/covid19-radiography-database.

[41] WANG F,JIANG M Q,QIAN C,et al.Residual attention network for image classification[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,Hawaii.Piscataway:IEEE,2017:3156-3164.

[42] SANDLER M,HOWARD A,ZHU M L,et al.Mobilenetv2:inverted residuals and linear bottlenecks[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,Utah.Piscataway:IEEE,2018:4510-4520.

A New Classification Model COVID-SERA-NeXt for COVID-19 CXR Images

XIE Juanying, XIA Qin

(SchoolofComputerScience,ShaanxiNormalUniversity,Xian710119,China)

Abstract:The Chest X-ray (CXR) images of COVID-19 patients are different from those of normal people, which has been an effective base for making correct diagnosis. It is an important way to help medicine doctors to make the fast and accurate diagnosis for patients by using computer aided automatic classification technique based on the patient chest X-ray images. The new COVID-SERA-NeXt model was proposed in this paper for classifying COVID-19 CXR images by introducing the cross-stacked channel attention module and residual attention module, as well as the proposed dimensional reduction module, into the ResNeXt model. The performance of the proposed COVID-SERA-NeXt model was tested on the open accessed COVIDx dataset by extensive experiments. The experimental results show that the proposed COVID-SERA-NeXt model is superior to its base model ResNeXt. It achieves the accuracy and Macro_Recall of 96.11% and 95.46%, respectively. Further experiments demonstrate that the proposed COVID-SERA-NeXt model achieves better performance to classify COVID-19 CXR images when it is pre-trained using ChestX-ray8 dataset.

Keywords:COVID-19; computer aided diagnosis; attention mechanism; deep convolutional neural networks; CXR images; classification

引文格式:谢娟英,夏琴.新冠肺炎CXR图像分类新模型COVID-SERA-NeXt[J].太原理工大学学报,2022,53(1):52-62.

XIE Juanying,XIA Qin.A New Classification Model COVID-SERA-NeXt for COVID-19 CXR Images[J].Journal of Taiyuan University of Technology,2022,53(1):52-62.

收稿日期:2021-08-26

基金项目:国家自然科学基金资助项目(62076159,61673251,12031010);中央高校基本科研业务费专项资金项目(GK202105003);陕西师范大学研究生培养创新基金项目(2016CSY009,2018TS078)

通信作者:谢娟英(1971-),博士,教授,博士生导师,CCF高级会员,主要从事机器学习、数据挖掘、生物医学大数据分析的研究,(E-mail)xiejuany@snnu.edu.cn

中图分类号:TP391

文献标识码:A

DOI:10.16355/j.cnki.issn1007-9432tyut.2022.01.007

文章编号:1007-9432(2022)01-0052-11

(编辑:朱 倩)

Baidu
map