甲状腺肿瘤是世界上发展最快的恶性肿瘤之一[1],早期在医学影像上表现为甲状腺结节。近年来,甲状腺结节的发病率呈现出逐年上升的趋势,严重危害着人类身体健康。甲状腺结节的临床检测方法有很多,如磁共振成像、B型超声、多普勒超声和细针穿刺细胞学检查[1]。在现有的临床诊断方法中,超声检测以其实时检测、对人体无害、价格低廉和可重复检测等优点[2]已逐渐成为大多数医院诊断甲状腺疾病最常用的成像方法。
甲状腺超声图像分辨率低,不同组织间对比度低,斑点噪声严重,不同人群结节的大小、位置和形状差异较大,对结节区域分割准确性提出了很大的挑战,并且结节区域和正常组织之间相似的灰度值也常常会使专家感到困惑[3]。由于甲状腺结节的复杂性和多样性,传统的图像分割算法耗时且效率低下。随着深度学习技术的发展,先进的计算机图像处理技术被广泛地用于结节区域的准确分割,为医生提供重要的临床辅助诊断信息,因此使用计算机图像处理技术辅助医学图像分割成为当前一种趋势[4]。
尽管医学图像数据是海量的,但可用于机器学习的有效数据却很少。近年来,生成对抗网络在图像分割领域展现出了较为出色的分割效果,受到了大众的广泛好评。该模型通过生成模型和对抗模型间的博弈进行训练,特别适用于数据量小的医学图像分割,并且在数据稀缺领域对抗网络相比于其他算法可以在不增加计算复杂度的前提下提供更为可靠的学习。因此,生成对抗的思想对于数据量较少的超声甲状腺图像分割是有效且适用的。基于此,本文提出一种基于条件分割对抗网络的超声甲状腺结节分割cSegAN(conditional segmentation adversarial network,cSegAN)模型。其中,在分割器网络中,设计了一种多扩张率卷积块联合对结节区域进行精准定位。与单纯的对抗损失不同,本文还引入了相似度损失来共同约束结节区域的精准分割。判别器网络确定输入是来自分割器生成图像还是医生标注的金标准。随着训练次数的增加,生成器连续生成假样本,判别器不断鉴别,二者相互竞争,分割器和判别器进行细分和区分的能力都越来越强,这时生成器生成的伪样本越来越接近数据的真实分布。
临床医学中,经常需要定量地对人体器官组织病灶区域的形状、大小、体积、边界等特征进行测量,以期获得该组织病理或功能方面的某些重要信息。在超声甲状腺结节分割领域,郑斌等[5]使用Chan-Vese模型与闭运算相结合,基于结节的轮廓和形状进行分割;孙博浪等[6]提出了一种基于水平集的半自动分割方法,但该方法首先需要经验丰富的医生进行初步勾画,具有一定局限性;周姝君等[7]以U-Net为基础网络,提出了一种标记引导的超声甲状腺结节深度网络分割模型;应翔等[8]构建基于U-Net的简易全卷积神经网络实现甲状腺结节的自动语义分割,但其中下采样层使用的VGG19-FCN网络设计会使得整个模型参数量非常庞大;VIKSIT KUMAR et al[9]提出一种扩展卷积层的多输出卷积神经网络,该方法是基于深度学习技术的分割方法,实现了多种不同组织的分割,MA et al[10]使用深度卷积神经网络全自动地从超声图像中自动分割出甲状腺结节,但精度都还有待提高。综上所述,基于深度学习的全自动分割技术已经成为主流趋势,但却面临着分割准确性和可靠性低的问题。
近几年生成对抗网络(generative adversarial metworks,GAN)在深度学习领域大受好评,它采用了一种生成器和判别器两个网络模型间对抗学习的思想来实现多种不同的需求,这就是生成对抗网络模型,它是对于非监督式学习的一种提升。生成对抗网络中包括了两套独立的网络,分别是生成网络和鉴别网络。该网络采用生成模型和鉴别模型两者相互博弈的方式进行训练,减少了对标签样本的依赖。LUC et al[11]首次将GAN的思想应用于图像语义分割,证明了使用分割对抗思想用于图像分割领域的可行性。MATEUSZ KOZINSKI et al[12]将生成对抗的思想应用于图像分割的半监督学习,节省了数据准备的人力物力。KUMAR SINGHV et al[13]在乳房肿瘤分割领域提出了一种cGAN架构,使用原乳腺X线图像作为引导使用生成对抗网络分割出乳腺肿块,在没有增加计算复杂度的情况下提供了更为可靠的学习。面对超声甲状腺医学影像数据量小的现状,使用该网络框架进行甲状腺结节进行分割具备高度可行性。
本文提出的条件分割对抗网络模型由两部分组成:分割器网络和判别器网络。分割器网络先对输入的超声图像进行分割,然后判别器网络通过计算分割结果与金标准之间的匹配度,根据匹配值的大小来作为分割器网络是否继续进行训练的依据。
生成对抗网络的优势在于使用较少的训练数据就可以实现更加鲁棒的学习。普通的GAN模型仅仅从随机噪声中推断分割,本文cSegAN与之相比,不使用随机噪声进行训练,而是将原始的超声图像作为输入,分割器网络S不再具有随机性,与条件生成对抗网络(conditional generative adversarial network,cGAN)[14]相类似。这样的分割结果将更加逼近地面真实值,同时所需的迭代次数会更少。但与cGAN模型不同的是,本文cSegAN模型在输入部分并没有使用随机噪声z.本文cSegAN模型中ROI图像作为分割器网络S和判别器网络D的条件输入,这样得到的分割结果会与金标准更为接近。分割器网络S和判别器网络D的结合使得网络模型在使用较少的训练数据时就可以得到较为鲁棒的模型。
cSegAN模型架构如图1所示。其中,超声甲状腺ROI图像数据作为分割器网络S的输入,用以学习健康和不健康组织的内在特征,如灰度、边缘、形状、纹理等,并根据这些特征生成与输入相同大小的结节概率图,输出的概率映射值范围从0到1,即图像中某一像素值属于甲状腺结节类别的概率。
图1 cSegAN模型整体架构
Fig.1 Overall architecture of cSegAN model
空洞卷积(dilated convolution)有效地减免了池化操作带来的信息损失问题,通过增大核的感受域大小来有效地整合周围信息,让每个卷积输出都包含较大范围的上下文信息。
对于分割器网络S,本文cSegAN模型采用了一种多扩张率卷积块增强分割器S在超声甲状腺结节区域分割时的准确性。其中使用了可分离[15]空洞卷积用以减少计算成本。在多扩张率卷积块中,通过改变采样率大小,聚合基于不同域的上下文信息,共使用到了两种不同的卷积运算。第一种,标准卷积,即D=1时,这样可以大致定位目标区域,但同时也忽略了许多与对象相关的区域。第二种,空洞卷积,即D=2,4,8,…时,通过改变扩张率大小改变视野的接受范围,从而将稀疏突出区域的判别性知识转移到其他对象区域。
在选择较大扩张系数时一般会引入一些不相关的区域,但综合考量不同尺度的扩张率下的卷积时会利用相邻的有区别的对象部分来突出一些真正的负区域。为了对假阳性区域进行退火,本文采用了一种抗噪声联合策略来避免在使用大扩张系数时引入较多的负面区域。首先,对大扩张系数的卷积(D=2,4,8,…)结果进行平均操作,然后将平均后的特征图ψ1与标准卷积块的结果ψ0相加,得到最终的特征图ψ.此处定义:
(1)
其中,nd为扩张卷积块的数量。这样得到的最终特征图ψ将会使分割结果更加精确。最后,根据图像尺度相似性使用跳跃连接融合浅层和深度信息,这样就可以获得更为精确的结节区域二值掩膜。
在分割器网络S中,网络的前五层卷积操作的步长为2,池化选用的是核大小为2的最大值池化,内核权重初始化采用的是he_normal. Con6至Con8卷积操作的步长为1,分别使用核大小为4,2,1的上采样到32×32大小的特征图,通道数统一调整为128。在可分离扩张卷积块中,可分离卷积的核大小为3,stride为1,填充方式选择same,选用的激活函数是LReLU,分别采用扩张率为1,2,4,8的扩张卷积。Con9之后的反卷积DeCon激活函数选用的ReLU,上采样的核大小为2,最终上采样为256×256×1大小,最后一层的激活函数为tanh.
判别器网络D用来评估给定的二进制掩膜是否来自于一个真实的分割。判别器网络有两组输入,分别是超声图像和地面真实值二进制掩膜图像以及超声图像和分割器网络预测值两组的拼接。
判别器网络D由5个卷积层网络组成,其中卷积核大小为4×4,填充padding值为1,其中Con1至Con3卷积操作的步长stride为2,图像尺寸大小依次缩小一倍。Con4和Con5的stride值为1,图像尺寸由32×32依次减小为31×31、30×30大小。除此之外,在Con2至Con5卷积操作之后均对数据进行批量标准化(batch normalization,BN)处理,在增加网络训练速度的同时避免模型出现过拟合,提高网络的泛化能力。除此之外,在Con2至Con5均采用激活函数alpha值为0.2的LReLU函数,但神经网络的最后一层选用sigmoid激活函数来对最终的结果进行二分类。判别器网络D的输出值是一个每个值大小均介于0到1之间30×30的数组。其中0代表网络判断结果完全为假,1代表判断结果完全为真。
如图2所示,设输入超声图像为x,金标准二值掩膜为y,分割器网络S预测结果为S(x),判别器网络D输出结果为D(x,S(x)),S的损失主要来自于两个方面,一个是判别器的对抗损失,一个是真假掩膜的相似度损失。
图2 cSegAN模型简要架构
Fig.2 Brief architecture of cSegAN model
在医学图像分割中,经常使用Dice系数来对分割结果和金标准之间进行相似度度量。由于分割对抗网络的目标是要让生成器生成更加真实的效果,即最小化分割器的对抗损失。
本文采用的是Dice的相似度距离,通过在分割任务中添加Dice损失作为惩罚项,以计算金标准与预测结果之间的距离,该项损失促进了结节中心区域形状的粗略预测。通过分割器S的损失函数定义为:
lSet(S,D)=Ex~Pdata(x)(-log2(D(x,S(x))))+
λEx,y~Pdata(x,y)(lDice(y,S(x))) .
(2)
其中,相似度损失函数定义为:
(3)
其中,|y∩S(x)|表示两幅图像中相同的元素个数,|y|+|S(x)|表示两幅图像中的元素总数,其中系数2表示重复计算两幅图像的共同元素。
分割器的优化过程应使得损失函数的两项值都最小化,那么log2(D(x,S(x)))项就应该无限趋近于0,D(x,S(x))将无限趋近于1,即判别器将S(x)判别为真,意味着分割器对结节区域进行更为准确的分割,与此同时lDice(y,S(x))无限趋近于0,说明生成的假图像与金标准更加相似。如果忽略两项损失中的任何一个都可能导致分割结果较差或者学习速度很慢。
判别器D的目的在于更好地鉴别出输入数据是否来自于真实值。通过最小化判别器损失来反向调整分割器网络,进而改进分割结果。为了让判别器做出正确的判断,就需要将D(x,y)最大化,D(x,S(x))最小化。那么判别器的损失函数定义为:
lDis(S,D)=Ex,y~Pdata(x,y)(-log2(D(x,y)))+
Ex~Pdata(x)(-log2(1-D(x,S(x)))) .
(4)
综上,cSegAN模型的目标损失函数表示为:
lSeg(S,D)) .
(5)
网络中分割模型和对抗模型两者相互博弈,优化目标损失,不断调整参数,二者共同优化,最终判别器很难发现分割器的输出结果是真是假,这时就可以认定模型给出了不错的分割。
本文实验中使用的甲状腺超声数据来自山西省某医院,这是一个私人数据库。超声检测结果均由经验丰富的医生结合TI-RADS系统进行概述,共231例,其中,男性42例,女性189例。为了验证本文cSegAN模型的有效性,总共使用了524张(其中恶性结节349张,良性结节175张)甲状腺结节图像及其对应的结节区域二值掩模进行训练,每张超声图像的大小为256×256像素。
本文对CNN模型、U-Net[7]模型、cGAN[15]模型、Mask R-CNN模型、SLSDeep模型、联合上采样[16]模型和本文所提cSegAN模型从像素精度PA、Dice相似度系数、Jaccard距离和时间方面作对比实验。实验采用的PC机处理器为Intel(R) Core(TM) i5-8250U CPU@1.60 GHz 1.80 GHz,RAM为8 GB,64位操作系统,操作系统为Windows10,编程语言为Python3.7,采用的深度框架是Keras框架。本文分割器网络S选用了Adam优化器,初始学习率设置为1×10-3,beta1系数为0.9,beta2系数为0.999.
像素精度(pixel accuracy,PA)为预测类别中正确分类的像素个数与总像素数的比值。计算公式定义为对角线的元素之和与矩阵中所有元素之和的比值,定义:
(6)
其中,pi表示预测类别正确的像素数量,pij为金标准图像中总像素数量。PA值越大,表示模型分割结果越接近金标准。
在医学图像分割中,经常用Dice系数(值范围为[0,1])来对分割结果和真实值之间进行相似度度量,定义:
(7)
其中,|X∩Y|为样本X和样本Y相同的元素个数,|X|+|Y|为样本X和样本Y的元素总数,其中系数2表示重复计算样本X和样本Y共同元素的原因。
Jaccard系数(值范围为[0,1])是一种用来衡量有限样本集之间的相似性和差异性的指标,给定两个集合X和Y,定义:
(8)
其中,J(X,Y)值越大则表示样本X和样本Y之间的相似度越高。Jaccard距离(Jaccard_coef)用于描述两个样本之间的不相似度,定义:
dj(X∩Y)=1-J(X,Y)=
(9)
其中对参差,XΔY=|X∪Y|-|X∩Y|.
为了解决甲状腺超声图像背景复杂、结节内部灰度不均匀、斑点噪声严重等问题,更好地实现结节区域的分割难题,非常有必要在进行分割实验之前对超声图像数据进行预处理操作。在预处理流程中,依次采取中值滤波、闭运算和直方图均衡化操作。其中在闭运算操作时,选取的圆盘半径r值为1.与原始超声图像相比,预处理后的图像在尽可能保留结节区域信息的前提下,增强了结节区域与背景区域的对比度,很大程度上有效地抑制了超声图像中的斑点噪声。
本文共选用了5组具有代表性的原超声甲状腺结节图像,每张图像每个结节分别在大小、形状等方面分别具有各自的特点,用以说明在不同形态大小、灰度不均匀区域每种算法的优劣,突出本文所提分割对抗网络模型的鲁棒性。如图3所示,(a)列是原始的甲状腺结节超声图像,(b)列是进行预处理后的结果,(c)列是使用U-Net网络分割出的结节区域的效果,(d)列是使用分割器为U-Net网络的cGAN模型分割出的结节区域效果,(e)列是使用Mask R-CNN模型分割出的结节区域效果,(f)列是使用SLSDeep模型分割出的结节区域效果,(g)列是使用基于联合上采样方法分割出的结节区域的效果,(h)列为本文cSegAN模型分割出的结节区域的效果,最后的(i)列是医生手工标注的甲状腺结节区域。
图3 6种分割方法分割结果定性比较
Fig.3 Qualitative comparison of the results of six segmentation methods
从分割结果中可以看出,使用U-Net网络进行分割时,较好地完成了分割,但在第2张大结节与金标准结节外形相差较大,并且最后一张结节区域的边缘出现了欠分割的现象;使用Mask R-CNN模型进行分割时,相对U-Net模型而言,基本覆盖了图像的真阳性区域,但在第2张和第3张结节边缘区域部分有些过分割的情况出现;使用cGAN模型进行分割实验时,对抗训练的引入让该模型的分割结果较U-Net模型有了提升,模型的鲁棒性较U-Net表现更加优秀;使用SLSDeep模型进行分割时,相比于Mask R-CNN模型来说,一定程度上改善了结节边缘区域的过分割现象,但部分分割结果在外形上与金标准间还存在一定差距;使用联合上采样模型分割时,在分割外观上相较于SLSDeep有所提升,分割效果也更加准确。本文方法所提条件分割对抗cSegAN模型在结节外形和边缘信息上更为接近金标准,但第3张图小结节的情况下,本文大扩张率系数的引入在小结节的分割外形方面与金标准还有一定差距,出现了一定的过分割现象。总的来讲,使用本文cSegAN模型的分割效果无论是在结节外观还是边缘信息上都有了一定程度的提升,使得分割预测结果与真实标签值更加接近,这与本文之前提到的引入对抗训练会增强模型的鲁棒性的想法是一致的。
从图4中可以清楚地看到,每个模型的像素精度都随着训练迭代次数的增加而增加,最终均趋于收敛。U-Net模型相较于其他几种深度网络模型,编解码结构的设置相对较为简单,在迭代到210次左右时模型逐渐趋于稳定。Mask R-CNN模型与U-Net模型相比像素准确率有了一定的提升,但是效果相差不是很大。SLSDeep模型有着与联合上采样模型相似的结构,都通过聚合上下文信息来增强模型的分割能力,因此这两条曲线会比前三种分割方法获得更高的像素精度,但限于这两个模型的参数量,在训练前期的像素精度会低于U-Net模型和Mask R-CNN模型。在训练cGAN模型时,相同迭代次数下cGAN模型的像素精度一直略优于U-Net模型。本文提出的cSegAN模型在联合上采样模型的基础上添加了对抗训练,由于在分割器网络S中同时引入了相似度损失和对抗损失,因此本文所提cSegAN模型相较于联合上采样模型在训练相同的次数时达到的分割精度也更高,与前五种方法相比,本文cSegAN模型最终获得的像素精度最高。
图4 6种方法像素精确度变化曲线对比
Fig.4 Pixel accuracy curve comparison of six methods
最后,为了验证本文引入对抗训练的有效性与可行性,表1中给出了六种分割方法评价指标值对比。实验结果表明,本文方法像素精度达95.31%,高于其他五种方法,在Dice相似度系数和Jaccard距离方面也表现出了最优效果。其中,U-Net模型相较于其他五种分割模型结构较为简单,网络参数最少,模型更加轻量,计算时间也最短,但Dice系数表现较差。Mask R-CNN引入的掩膜预测分支在dice相似度分割性能上有了相对提升。cGAN模型在U-Net模型的基础上引入的对抗训练在收获一定像素精度的同时Dice系数有了较为明显的提升。SLSDeep模型中通过引入金字塔池化块整合不同池化操作下的上下文信息。同样,联合上采样网络模型也引入上采样模块使用不同扩张系数下的膨胀卷积来对上下文信息进行融合,因此这两个模型的分割效果比较优秀,像素准确率也比较高,同时也可以得出使用膨胀卷积的效果要略优于金字塔池化块,分割结果会更好。但是这两个模型的参数量相对较大,计算过程会更为复杂,计算时间较长。同理,本文cSegAN模型训练得到的分割器模型的参数量与联合上采样模型大致相同,但学习到的参数更优,因此测试时间相差不大,但在分割像素精度、Dice相似度和Jaccard距离上表现更加优秀。
表1 6种分割方法分割效果对比评价值
Table 1 Comparison and evaluation of the segmentation effect of the six segmentation methods
方法PADice系数Jaccard距离时间/sU-Net0.90520.74760.14960.678cGAN0.92650.84520.08651.064MaskR-CNN0.91480.82750.12712.106SLSDeep0.91960.83430.11535.185联合上采样0.93190.85580.08245.000本文方法cSegAN0.95310.89940.06874.791
超声甲状腺结节的精准分割对于甲状腺结节区域的诊断起着非常重要的作用。本文提出了一种用于超声图像甲状腺结节分割的条件分割对抗网络cSegAN模型。通过在分割器网络S中引入一种多扩张率卷积块来实现结节区域的精准定位,分割出更为精确的二值掩膜。判别器网络D中原超声图像作为条件输入,判别输入数据是否来自一个真实的分割。分割器网络S的损失主要由两部分组成,一个是对抗损失,一个是真假掩膜的相似度损失,它们共同约束结节中心和边界区域的准确预测。实验结果表明,本文的分割方法可以从超声图像中更为准确地分割出结节区域,可以为医生的诊断过程提供更为有效的辅助信息。但本文模型在计算时间和小结节检测方面还有待加强,将继续进行甲状腺结节的良恶性分类方面的研究。
[1] HORVATH E,MAJLIS S,ROSSI R,et al.An ultrasonogram reporting system for thyroid nodules stratifying cancer risk for clinical management[J].The Journal of Clinical Endocrinology & Metabolism,2009,94(5):1748-1751.
[2] WEINSTEIN S P,CONANT E F,SEHGAL C.Technical advances in breast ultrasound imaging[J].Seminars in Ultrasound,CT and MRI,2006,27(4):273-283.
[3] CHANG C Y,HUANG H C,CHEN S J.Automatic thyroid nodule segmentation and component analysis in ultrasound images[J].Biomedical Engineering:Applications,Basis and Communications,2010,22(2):81-89.
[4] 徐文杰.超声甲状腺结节图像分割算法研究[D].长春:长春工业大学,2017.
[5] 郑斌,徐峰,郭进祥,等.基于Chan-Vese模型的甲状腺结节超声图像分割方法[J].电脑与电信,2018(6):4-7.
ZHENG B,XU F,GUO J X,et al.Thyroid nodule ultrasound image segmentation method based on chan-vese model[J].Computer & Telecommunication,2018(6):4-7.
[6] 孙搏浪.基于超声图像的甲状腺结节分割与良恶性分类研究[D].成都:电子科技大学,2020.
[7] 周姝君.基于深度学习的超声甲状腺结节诊断研究[D].成都:电子科技大学,2019.
[8] 应翔,尉智辉,于健,等.一种级联全卷积神经网络的甲状腺结节超声图像分割方法:CN109087327A[P].2018-12-25.
[9] KUMAR V,WEBB J,GREGORY A,et al.Automated segmentation of thyroid nodule,gland,and cystic components from ultrasound images using deep learning[J].IEEE Access,2020,PP(99):1-1.
[10] MA J L,WU F,JIANG T A,et al.Ultrasound image-based thyroid nodule automatic segmentation using convolutional neural networks[J].International Journal of Computer Assisted Radiology and Surgery,2017,12(11):1895-1910.
[11] LUC P,COUPRIE C,CHINTALA S,et al.Semantic segmentation using adversarial networks[EB/OL].https:∥arxiv.org/abs/1611.08408/2016.
[12] KOZINSKI M,SIMON L,JURIE F,et al.An adversarial regularisation for semi-supervised training of structured output neural networks[EB/OL].https://arxiv.org/abs/1702.02382/2017.
[13] KUMAR SINGH V,RASHWAN H A,ROMANI S,et al.Breast tumor segmentation and shape classification in mammograms using generative adversarial and convolutional neural network[J].Expert Systems with Application,2020,139(1):112855.1-112855.14.
[14] YU F,KOLTUN V.Multi-Scale context aggregation by dilated convolutions[EB/OL].https:∥arxiv.org/abs/1511.07122/2016.
[15] 赵蕾,宋军,郑天雷,等.一种基于生成式对抗网络的甲状腺结节识别方法:CN110060774A[P].2019-07-26.
[16] WU J X,ZHANG Z Q,ZHAO J J,et al.Ultrasound image segmentation of thyroid nodules based on joint upsampling[J].Journal of Physics:Conference Series,2020,1651(1):151-157.
WU Junxia,QIANG Yan,WANG Mengnan,et al.Ultrasonic thyroid nodule segmentation based on segmentation adversarial network[J].Journal of Taiyuan University of Technology,2023,54(2):392-398.