在全球范围内,脑卒中是致残率和致死率最高的脑血管疾病[1]。脑卒中发病时,可在核磁共振影像(magnetic resonance imaging,MRI)上观察病灶的大小和位置,对病灶的轮廓进行分割能够帮助医生实现迅速、准确的诊断。一直以来,手动分割是脑卒中病灶分割的金标准[2]。然而手动分割耗时耗力,精确性也容易受到专家技术水平的影响。因此,为了在临床实践中获得快速、准确的脑卒中病灶分割结果,迫切需要一种计算机辅助诊断脑卒中病灶的分割方法。
近年来,卷积神经网络(convolutional neural networks,CNN)作为计算机视觉最具突破性的技术,在医学图像分析领域发展迅速[3-5]。CNN具有数据驱动的特性,需要规模较大的数据集进行训练。然而在医学图像处理中,医学图像的采集、标注和分析成本高昂。U-Net[6-8]的出现一定程度上解决了上述问题,它可以在少量数据标注的医学影像数据集的情况下很好地完成模型训练。U-Net通过跳跃连接在同层的编码和解码器之间建立联系,使网络能够学习到图像的全局和局部语义特征。对于脑卒中MRI影像,连续切片之间具有较强的相关和依赖特性,即序列性,而传统U-Net缺乏时序数据的信息挖掘能力,存在学习能力有限、特征利用率低等问题。
综上,本文提出了一种基于双向循环U-Net模型(bi-directional recurrent U-Net model,BIRU-Net)的脑卒中病灶分割方法。首先,将U-Net中的部分卷积层替换为改进的卷积门限递归单元(attention convolutional gate recurrent unit,ACGRU).在提取图像特征的同时,利用ACGRU的长时记忆特性,捕获了脑部切片之间的序列联系;其次,将U-Net扩展至两路,分别采用正、反向切片序列作为输入,并将预测结果在前向传播输出端融合,兼顾了切片序列的历史信息和预测信息。最终将预测结果进行多视面融合,实现了对数据3D上下文信息的利用。实验结果表明,本文提出的BIRU-Net方法在训练过程中能够捕获更多的特征信息,得到更准确的分割输出。
本文使用脑卒中发病后病变的解剖追踪(anatomical tracings of lesions after stroke,ATLAS)[9]的开源数据集。训练时将二维图像数据作为分割模型的输入,2D U-Net选取单个视面的单个切片作为一个样本,而BIRU-Net把有序、连续的切片组成的切片序列看成一个子序列样本。图1为整体实验流程。
图1 实验流程
Fig.1 Experimental flow
其中切片序列数据生成分为以下步骤:
1) 对3D MRI影像分别沿着横截面、冠状面和矢状面连续切片生成长度为H、W和D的切片序列,即子集A、C和S.
2) 将上述三个切片序列进行正反方向序列数据样本提取,以横截面为例,切片序列序号为1到H.正向序列数据样本从切片1到H,根据g=1、l=1、m=9进行连续数据样本提取得到子序列样本,构成子集AF.其中g为样本选取间隔,l为步长,m为子序列长度。反向序列数据样本从切片H到1,同理提取子序列样本,即子集AR.冠状面和矢状面经过同样的操作,最终得到六个数据子集AF、AR、CF、CR和SF、SR.
图2为BIRU-Net网络的总体设计示意图。该模型搭建深度为4层(L=1,2,3,4,从上到下对应L=1到L=4).首先编码部分通过步长为2的卷积层实现对切片序列的特征提取与特征信号尺寸的逐级下采样,同时每层经过卷积操作后,将特征输入至ACGRU中。每个卷积层后连接着BN层和LeakyReLU激活层。通过编码部分模型学习到由低维到高维以及切片序列之间的图像特征,完成数据的表征。其次当L=4时,将编码部分ACGRU的最后一个状态的输出作为解码部分的初始状态的输入。解码部分通过步长为2的转置卷积层对每组特征提取后的特征图进行上采样,将得到的高级语义特征图的分辨率恢复到原图片的分辨率。当L=1,2,3时,通过跳跃连接将编码部分ACGRU的输出作为对应层数的ACGRU隐藏状态的输入,使得模型的解码部分在学习深层特征时能够利用浅层网络关注的纹理和边缘特征,有效地避免特征冗余。其中ACGRU结构图与双向融合训练在1.3与1.4节。
图2 BIRU-Net网络结构示意图
Fig.2 Schematic diagram of BIRU-Net structure
卷积门控循环单元(convolutional gate recurrent unit,CGRU)[10]是一种常用于处理序列数据信息的深度网络单元,但其门控结构可能导致在一个较长的序列学习中遗漏关键信息。同时医学影像数据的空间上下文信息之间存在特征联系。因此本文提出改进的ACGRU,结构如图3所示。
图3 ACGRU结构示意图
Fig.3 Schematic diagram of ACGRU structure
ACGRU将输入{X1,X2,…,Xt}、隐藏状态{H1,H2,…,Ht}和zt、rt都扩展成为三维张量,后两维为空间信息(行和列),此时ACGRU的更新公式如下式(1)至(4)所示。
rt=sigmoid([Xt·Xt-1,Ht-1]×Wr+br) .
(1)
zt=sigmoid([Xt·Xt-1,Ht-1]×Wz+bz) .
(2)
(3)
(4)
其中,*表示卷积操作;tanh表示双曲正切函数;rt和zt表示t时刻复位门和更新门的输出;表示在t时刻使用tanh创建的新候选值向量,即隐藏状态;Xt、Ht表示t时刻的输入状态、输出状态,Xt-1、Ht-1表示t-1时刻的输入状态、输出状态;W是权重,b是偏差项。
从式(1)-(2)中看出,ACGRU在复位门rt处,将Xt-1与Xt相乘,在输入中添加上一时刻的输入状态,再与上一时刻的隐藏状态Xt-1进行权重加和,使得复位门结合上一时刻的特征信息,进行滤波时关注关键信息,忽视冗余信息。在更新门zt处进行同样的操作,Xt·Xt-1用于调整更新门从而优化神经元结构。因此,ACGRU可以学习到更为有效的信息,保持较大的距离信息依赖性,预测精度更高。同时可以极好推断出序列数据间的特征联系,通过捕获跨序列的特征细节来解决强度相似性问题,达到高效学习的目的。
在模型训练阶段,若输入只选取某一视面的单向序列数据,则模型学习到的上下文信息受限。因此,BIRU-Net同时输入正反两个方向的切片序列,如图2所示。在前向传播过程中,同时处理两个方向的数据依赖关系,在参数更新完毕后得到各自的预测标签进行特征融合,从而决定当前的反向传播,如式(5)-(6)所示。
Fprob=σf(F×ωf+bf) .
(5)
Rprob=σr(R×ωr+br) .
(6)
式中:F、R表示正向、反向输入数据,Fprob、Rprob表示正向、反向输入数据经前向传播后的预测值;ω表示权重,b表示偏差项,σ表示激活函数。
采取Add特征融合[11]操作融合正向数据和反向数据的预测值,公式如式(7).
BIprob=Fprob⊕Rprob.
(7)
式中:BIprob为新的预测值。特征融合方式可以同时处理数据的前向依赖项和后向依赖项,增加了特征的细节信息。特征融合后,将BIprob作为特征向量与真实标签值进行误差对比,从而进行反向传播。
在模型分割结果预测阶段,如图4。得到预测结果后,按照之前的切片顺序对2D切片结果进行顺序堆叠重组,得到各视面对应的3D病灶预测结果。数据子集A、C、S的3D病灶预测结果分别为Aprob、Cprob和Sprob,如式(8).
图4 多视面融合预测
Fig.4 Multi-plane fusion prediction
(8)
其中,x,y,z分别代表三个坐标轴,px、py和pz分别代表各3D病灶坐标轴对应的预测结果概率值,n代表测试集数据的样本个数。
依照软投票融合方法实现多视面融合,融合时保证3D预测结果和原始空间的体素一一对应。3D病灶预测结果的本质为3D概率矩阵,体素值范围为[0,1],本文以0.5为阈值判定概率矩阵中每个体素值是否为病灶。Tprob为融合Aprob、Cprob和Sprob后的结果,如式(9).
(9)
式中:1为病灶,0为非病灶。
ATLAS数据集的每个影像由脑卒中患者的T1加权解剖MRI及对应的手动分割的病灶(真实标签)组成。真实标签由脑神经科专家在严格一致的数据标注流程下进行了精确的手动标注,以确保数据分割的准确。本文对3D MRI影像数据进行裁剪后分辨率为208×176×176(X×Y×Z).数据生成时,对3D MRI影像数据分别沿着横截面、冠状面和矢状面进行切片处理,得到的2D切片分辨率分别为208×176(X×Y)、208×176(X×Z)和176×176(Y×Z).
2.2.1训练环境及参数
软件环境:操作系统为Windows 10,深度学习框架为Pytorch,编程语言环境为Python 3.6.
硬件环境:使用戴尔XPS 8930台式电脑,其处理器(CPU)为英特尔Core i7-9700@3.00 GHz八核,内存(RAM)为8 GB,显卡为NVIDIA GeForce RTX 2080.
其他训练参数:优化器为Adam,初始学习率为0.000 1,批量大小设置为4.
2.2.2损失函数
二进制交叉熵函数[12](binary cross entropy,BCE)被广泛用于图像像素级分割。它用于度量给定随机变量或事件集的两个概率分布之间的差异,当BCE越小时,表明两个概率分布之间的差异越小。公式为:
(10)
其中,表示预测模型的预测值,y表示真实标签值。
骰子损失(dice loss,DL)[13]用于类不平衡数据集,特别是医学图像的病灶分割任务。实际应用中,DL值越小,所训练模型的预测性能越好。公式为:
(11)
本文所用损失函数为BCE-Dice,该函数将上述两者结合,当BCE-Dice值逐渐减小直至平稳变化,即可得到预测性能最好的训练模型。其公式为:
BCE-DL=α×BCEloss+DL .
(12)
式中:α为权重因子,用于调节BCE所占的比重。本文基于U-Net模型,输入横截面的数据进行分割对比实验,设置α为0.3、0.5、0.7和0.9.表1说明混合损失函数在不同权重因子下对网络性能的影响,对比实验结果的取值为0.5时,网络性能表现最优。
表1 不同权重因子对模型性能的影响
Table 1 Influence of different weight factors on model performance
权重因子DSC/%召回率/%精确率/%F2/%0.345.0646.5858.4846.100.546.5648.4361.0047.680.744.6644.5060.8444.800.945.2247.1859.4745.95
2.2.3评价指标
本文采用Dice相似度系数(dice similarity coefficient,DSC)、精确率(precision,PRE)、召回率(recall,RE)、F2得分(F2-score,F2)等性能指标对实验结果进行定量分析。DSC用于评估分割结果与真实标签之间的相似性,取值范围为[0,1],取值越接近于1,分割结果与真实标签越相似。PRE是用于评估分割结果中,病灶人群中其真实标签确实为病灶的比例,取值越大,分割结果越准确。RE是用于评估真实标签为病灶的人们中有多少比例被分割出来,取值越大,分割结果越准确。F-Score综合权衡精确率和召回率两个指标,F2是F-Score中β为2时的情况,更侧重于召回率。这是因为脑卒中病灶检测漏检会带来极高的治疗风险和救治成本,因此召回率显得极其重要。
本节实验将U-Net作为基线模型,与BIRU-Net进行对比实验,实验设计与结果如表2所示。为了提高实验结果的说服力,同时可以有效避免过拟合,本实验采用了五折交叉验证的方法对239个数据集进行训练及验证。在每个交叉验证过程中,我们根据病灶体积大小的分布规律将整个数据集中的50个数据集作为测试集,剩余的189个数据集分为训练集和验证集,其比例大致与训练模型的比例为4∶1.U-Net-A,U-Net-C,U-Net-S分别对应子集A、C和S使用U-Net进行训练、预测后得到的3D病灶分割结果。BIRU-Net-A、BIRU-Net-C和BIRU-Net-S分别对应子集AF和AR、子集CF和CR、子集SF和SR,使用BIRU-Net进行训练、预测后得到的3D病灶分割结果。BIRU-Net是对BIRU-Net-A、BIRU-Net-C和BIRU-Net-S的分割结果进行多视面融合。
表2展示了DSC、PRE、RE和F2多种评价指标,BIRU-Net均比U-Net得到了更高的分数。当3D MRI影像的分割切面分别为横截面、冠状面和矢状面时,BIRU-Net比U-Net的DSC值分别有11.30%、9.23%和16.21%的提升,由此验证本文所提出的BIRU-Net模型的分割性能更优。多视面融合的BIRU-Net的DSC值是62.58%,取得最高值。
表2 不同模型的实验结果
Table 2 Experimental results of different models
方法基础模型分割切面DSC/%RE/%PRE/%F2/%U-Net-AU-NetBIRU-Net-ABIRU-Net横截面48.6549.1259.5848.2359.9563.5360.4261.61U-Net-CU-NetBIRU-Net-CBIRU-Net冠状面50.8150.2561.9549.6360.0465.2567.8963.58U-Net-SU-NetBIRU-Net-SFBIRU-Net矢状面44.6445.5555.0444.1360.8561.9066.8461.58BIRU-NetBIRU-Net多视面融合62.5864.2570.8163.13
图5给出ATLAS数据集的DSC值的雨云分布图和盒图,用于评价BIRU-Net的性能。其中图5(a)表示当3D MRI影像的分割切面为横截面时,U-Net-A和BIRU-Net-A的DSC分布对比图;图5(b)、图5(c)分别表示当3D MRI影像的分割切面为冠状面、矢状面时,对应方法的DSC分布对比图。图5(d)表示单视面方法(BIRU-Net-A、BIRU-Net-C、BIRU-Net-S)和采用多视面融合方法(BIRU-Net)的DSC分布对比图。从图5(a)可以看出,本文所提出的BIRU-Net模型在雨云分布图部分有更好的数据分布,DSC值更接近高分区。BIRU-Net模型在盒图中DSC值的中位数和平均数有所提升。同时观察图5(b)与图5(c)可以得出同样的结论,体现了BIRU-Net在不同的分割切面上均保持了高效的分割精度和稳定性。图5(d)中BIRU-Net的DSC平均数和中位数在对比中取得了最高数值,分布都集中在较高数值区域。证明采用多视面融合方法可以补偿三个不同平面方向切片之间缺少的空间上下文信息。由此证明,BIRU-Net可捕获切片之间病灶大小和位置的变化特征,有效利用具有空间上下文信息的双向长依赖特性,提升分割精度。从图5中DSC值的雨云分布图可看出,存在部分数值的DSC值比较低,降低了总体DSC的平均值。这是由于ATLAS中存在许多微小病变的数据集,此类数据集病变区域较小,病灶边界模糊以及病灶特征不明显,模型无法将其准确分割出来,从而导致DSC评分低。
图5 ATLAS数据集的DSC值分布
Fig.5 DSC value distribution of ATLAS data sets
为了更好地验证本文方法的性能,将本文方法与五种基于ATLAS数据集的方法进行对比,如表3所示。文献[14]提出基于深度可分离卷积和长程依赖关系的X-Net;文献[15]在编码阶段结合了2D和3D卷积的维度融合的D-UNet;文献[16]提出跨级融合和上下文推理网络CLCI-Net;文献[17]提出基于多输入U-Net的MI-UNet方法;文献[18]提出主辅路径注意力补偿(PAPAC-Net)的方法。通过将BIRU-Net与其他方法对比可看出,BIRU-Net比X-Net、D-Unet、CLCI-Net、MI_UNet和PAPAC-Net分别提升了13.88%、9.08%、4.48%、5.85%和3.76%,准确率和召回率也高于其他已有方法,由此证明了所提方法的有效性。多视面融合操作针对输入为2D影像数据的模型,现有方法中D-UNet、MI-UNet的输入为3D影像数据,训练过程中已利用了不同视面的空间上下文信息,不存在多视面融合操作。X-Net、CLCI-Net、PAPAC-Net的输入均为单个视面(横截面),若进行多视面融合,理论上评价指标值会有所变化。但本文方法BIRU-Net-A的输入为单个视面(横截面),对比可看出BIRU-Net-A比X-Net、CLCI-Net、PAPAC-Net仍提升了11.25%、4.85%和1.13%,同样证明了本文模型具有良好的分割性能。
表3 与其他方法对比
Table 3 Compares with other methods
模型DSC/%RE/%PRE/%X-Net48.7047.5060.00D-Unet53.5052.4063.30CLCI-Net58.1058.1064.90MI_UNet56.7059.4065.50PAPAC-Net58.8258.1064.90BIRU-Net-A(ours)59.9563.5360.42BIRU-Net(ours)62.5864.2570.81
本文提出一种双向循环U-Net模型的脑卒中病灶分割方法。BIRU-Net模型适用于小规模标注的医学影像数据集,具有长时记忆特性,有效解决现阶段网络模型捕获远程依赖上下文信息效率低的问题。同时训练时融合双向序列特征有效利用了切片序列数据的双向依赖性,多视面融合有效利用了不同视面之间的空间上下文信息。通过与其他方法得到的DSC值进行对比,证明本文提出的方法获得了更好的鲁棒性。在未来工作中,可使用其他脑卒中分割数据集进行实验验证,进一步证明本文方法的泛化能力,从而更好地应用于临床决策中。
[1] JOHNSON W,ONUMA O,OWOLABI M,et al.Stroke:a global response is needed[J].Bulletin of the World Health Organization,2016,94(9):634.
[2] ITO K L,KIM H,LIEW S.A comparison of automated lesion segmentation approaches for chronic stroke T1-weighted MRI data[J].Human Brain Mapping,2019,40(16):4669-4685.
[3] SHIN H C,ROTH H R,GAO M,et al.Deep convolutional neural networks for computer-aided detection:CNN architectures,dataset characteristics and transfer learning[J].IEEE Transactions on Medical Imaging,2016,35(5):1285-1298.
[4] CHEN L,BENTLEY P,D RUECKERT.Fully automatic acute ischemic lesion segmentation in DWI using convolutional neural networks[J].Neuroimage Clinical,2017,15:633-643.
[5] 肖小娇,赵文婷,赵涓涓,等.联合多模态特征的无造影剂MRI图像中肝肿瘤的分割和检测[J].太原理工大学学报,2021,52(3):411-416.
XIAO X J,ZHAO W T,ZHAO J J,et al.Segmentation and detection of liver tumors in non-contrast MRI images combined with multi-modal features[J].Journal of Taiyuan University of Technology,2021,52(3):411-416.
[6] RONNEBERGER O,FISCHER P,BROX T.U-Net:convolutional networks for biomedical image segmentation[C]∥International Conference on Medical Image Computing and Computer-Assisted Intervention.Heidelberg:Springer,2015:234-241.
[7] ALOM M Z,HASAN M,YAKOPCIC C,et al.Recurrent residual convolutional neural network based on u-net (r2u-net) for medical image segmentation[J].arXiv Preprint arXiv:1802.06955,2018.
[8] OKTAY O,SCHLEMPER J,FOLGOC L L,et al.Attention u-net:Learning where to look for the pancreas[J].arXiv preprint arXiv:1804.03999,2018.
[9] LI Y,SHEN L.Deep learning based multimodal brain tumor diagnosis[C]∥International MICCAI Brainlesion Workshop.Springer,Cham,2017.
[10] FU J,ZHENG H,TAO M.Look closer to see better:recurrent attention convolutional neural network for fine-grained image recognition[C]∥IEEE Conference on Computer Vision & Pattern Recognition.IEEE,2017.
[11] 邵凯,张云峰,包芳勋,等.一种基于Mask RCNN的融合几何特征的冠状动脉分割方法[J].太原理工大学学报,2021,52(1):83-90.
SHAO K,ZHANG Y F,BAO F X,et al. A novel method for coronary artery segmentation based on mask RCNN[J].Journal of Taiyuan University of Technology,2021,52(1):83-90.
[12] MA Y D,LIU Q,QIAN Z B.Automated image segmentation using improved PCNN model based on cross-entropy[C]∥Proceedings of 2004 International Symposium on Intelligent Multimedia,Video and Speech Processing.IEEE,2005.
[13] MILLETARI F,NAVAB N,AHMADI S A.V-net:fully convolutional neural networks for volumetric medical image segmentation[C]∥2016 Fourth International Conference on 3D Vision (3DV).IEEE,2016:565-571.
[14] QI K,YANG H,LI C,et al.X-net:brain stroke lesion segmentation based on depthwise separable convolution and long-range dependencies[C]∥International Conference on Medical Image Computing and Computer-Assisted Intervention.Springer,Cham,2019:247-255.
[15] ZHOU Y,HUANG W,DONG P,et al.D-UNet:a dimension-fusion U shape network for chronic stroke lesion segmentation[J].IEEE/ACM Transactions on Computational Biology and Bioinformatics,2019.
[16] YANG H,HUANG W,QI K,et al.CLCI-Net:cross-level fusion and context inference networks for lesion segmentation of chronic stroke[C]∥International Conference on Medical Image Computing and Computer-Assisted Intervention.Springer,Cham,2019:266-274.
[17] ZHANG Y,WU J,LIU Y,et al.MI-UNet:multi-inputs UNet incorporating brain parcellation for stroke lesion segmentation from T1-weighted magnetic resonance images[J].IEEE Journal of Biomedical and Health Informatics,2020,25(2):526-535.
[18] 回海生,张雪英,吴泽林,等.一种主辅路径注意力补偿的脑卒中病灶分割方法[J].西安电子科技大学学报,2021,48(4):200-208.
HUI H S,ZHANG X Y,WU Z L,et al.Method for stroke lesion segmentation using the primary-auxiliary path attention compensation network[J].Journal of Xidian University,2021,48(4):200-208.