基于改进的大间隔最近邻胰腺单细胞分类方法

单细胞RNA 测序技术从单个细胞维度了解转录组信息,能够解决传统转录组测序无法解决的细胞异质性问题,在胚胎发育、组织器官发育、免疫学及肿瘤治疗等领域得到了广泛的应用[1]。细胞类型鉴定是单细胞RNA 测序数据分析的一个重要步骤[2]。传统单细胞测序数据细胞类型识别方法耗时费力且依赖于人工注释。相比之下,基于机器学习的自动细胞类型识别方法具有快速、准确和实验结果可以跨实验室重现的优点[3],在单细胞测序数据分析中具有重要意义。

近年来,研究者提出了许多基于参考数据集的自动细胞类型识别方法。例如scmap-cluster分析待测样本基因表达的空间距离,将细胞与参考数据集中最相似细胞匹配[4];CHETAH 对参考数据集进行分层聚类构建分类树,通过斯皮尔曼相关计算自定义的“置信度分数”分配细胞类型[5];scPred结合分解基因表达矩阵的方差结构来识别有限信息特征,并使用支持向量机来估计这些特征对细胞分类的影响[6];SciBet借鉴信息熵来对特征基因进行选择,对训练集的每一种细胞类型训练多项式分布模型,使用极大似然估计对新细胞分配细胞类型[7]。这些分类方法大多比较测试集细胞与训练集细胞的相似性,依据经验设定阈值,存在准确率较低、依赖人为设定标准、面对不同单细胞分类任务时无法保持稳定分类性能的问题。由于单细胞测序数据的高维特征和噪声特性[8-10],以上分类方法捕捉样本有效特征的能力有限,导致分类效果不佳。因此,探索高效准确的细胞类型识别算法成为该领域亟待解决的问题之一。

度量学习算法旨在寻找一种距离度量映射,使得原数据在该映射下同类间距离缩小,异类间间距增大。度量学习能够从异质性和复杂性高的单细胞测序数据中提取到有效的细胞类型特征,同时避免人为设定测度和参数,有助于提高细胞分类方法的性能。近年来,研究者逐渐发现度量学习算法在细胞分类上更具优势。例如scPred借助PCA 分解基因表达矩阵的方差结构来识别有效信息维度,但是PCA 无法利用先验信息,且经过PCA 处理后的样本间的非线性相关性会丢失[11]。MONOCLE[12]构建细胞分化轨迹之前利用ICA 进行降维,但是求解过程中如果特征矩阵的特征数量大于原始数据维度会产生优化困难,并导致训练时间过长[13]。2020年,同济大学刘琦教授课题组发表了单细胞细胞类型鉴定计算平台sc Learn[14],发现判别成分分析[15](DCA)可以很好刻画参考数据集的特征,提升细胞类型鉴定效果。DCA 算法采用特征向量方法发现单细胞测序数据集的线性变换信息,但是没有对映射矩阵进行优化。LMNN 是由WEINBERGER et al[16]提出的一种度量学习算法,它通过设定一个合适边界构造最优化条件,然后借助半定规划(Semi Definite Programming,SDP)优化求解,找到一个合适的映射矩阵,将原数据空间用马氏距离进行表达,可以有效学习数据集的转换矩阵。

LMNN 算法使用的三元组损失函数在批量训练样本较小时很难利用所有的样本对之间的关系。针对此问题,研究者在三元组损失的基础上提出了结构损失函数[17]和层次三元组损失函数[18]。WANG et al[19]全面分析了度量学习中的损失函数,发现关键的影响因素是数据样本的包含自相似度和相对相似度在内的多种相似度,其中相对相似度主要取决于其他样本对。多相似性损失函数能同时度量自相似度和相对相似度。因此,本论文提出一种基于多相似性损失的LMNN 单细胞分类方法。多相似性损失能从多个角度衡量相似性,克服了以往相似度衡量方法的片面性,解决了LMNN算法的三元组损失函数在训练样本较小时样本对之间关系利用率不高的问题,从而提升单细胞分类效果。

1 相关理论

LMNN 是由WEINBERGER et al[16]提出的一种和K 近邻(KNN)分类算法[20]相结合的距离度量学习算法。它通过最小化样本与其相同标签的最近邻样本(目标样本)间距离且最大化与其不同标签样本间距离来设定一个合适边界来构造最优化条件,然后通过迭代学习找到一个合适的映射矩阵L,将原数据空间以马氏距离形式进行表达。

代表的是训练集中n 个已知标签的样本,xi∈R d 表示一个特征维数为d 的样本,yi 表示该样本的类别。LMNN 的目标是学习一种马氏距离度量方式:

式中:M 为马氏矩阵(半正定对称矩阵),可以表示为M=L T L,L 即为要得到的映射矩阵。对于输入样本xi 类别为yi,定义k 个目标近邻为所有类别为yi 的训练样本中与xi 距离最近的k 个样本。如果xj 是xi 的目标近邻,记作j～→i.设计一个二值矩阵yij∈{0,1},yij=1表示样本xi 和xj 类别相同,yij=0表示类别不同。

在训练阶段,通过损失函数训练出一个适合该数据集的距离度量。

损失函数由两项组成,εpull(M)作用是惩罚样本和其目标邻居之间的距离过大,εpush(M)作用是惩罚不具有相同标签的输入样本之间的距离过小。其中,[z]+=max(z,0).μ 是权重参数,一般取0.5.

传统度量学习算法如PCA、ICA 对特征空间进行距离度量时采用欧式距离,该距离平等对待所有特征间的差别,不能很好揭示内部结构。由于单细胞测序数据的高维特征和噪声特性,欧式距离在单细胞测序数据上难以捕捉到有效的样本特征,而马氏距离分别对待特征间差别,并且不受样本量纲大小影响,可以很好地揭示单细胞内部结构。

2 MSL-LMNN 组合模型构建

LMNN 算法使用经典的三元组损失函数,它在训练样本较小时很难利用所有样本对之间的关系。为了应对这个问题,研究者提出了结构损失函数和层次三元组损失函数等,但结构损失函数会损失大量样本间信息,层次三元组损失函数实现复杂。大多数现有损失函数仅探索了一种相似度。

WANG et al[19]全面研究度量学习中的损失函数后发现,关键的影响因素是样本中包含自相似度和相对相似度在内的多种相似度。多相似性损失综合考虑了自相似度和相对相似度。本文最终采用多相似性损失函数替换LMNN 算法中的三元组损失函数,它从多个角度对相似性进行衡量,克服了以往对相似度衡量的片面性。

本文首先从hemberg-lab获取胰腺组织原始单细胞测序数据,然后进行预处理操作,包括质量控制和特征选择。其次通过MSL-LMNN 模型从胰腺单细胞测序数据中识别细胞类型。单细胞测序数据集可以形式化表示成

,其中N 表示数据集中细胞个数

,表示单个细胞,d 表示基因数;yi 表示第i 个细胞的细胞类型,yij∈{0,1},表示第i个细胞和第j 个细胞是否属于同一类细胞。两个细胞间的马氏距离如公式1 所示。根据MSL 的思想,用多相似性损失函数替换LMNN 算法中的三元组损失函数,可以写出其损失函数为:

其中,m 为训练样本数;Sij 表示两个样本i 和j 的相似度;α、β、λ 为超参数;Pi、Ni 指的是同类细胞对和异类细胞对。

多相似性损失函数从自相似性、负样本相对相似性和正样本相对相似性三方面评估损失值:

1) 自相似性。从自身细胞对计算而来,是最重要的相似性。一个异类细胞对有一个更大的余弦相似度意味着从不同的类别中区分两对细胞对是更困难的。上述样本对在学习一个可区分的特征时具有更多的信息和意义。

2) 负样本相对相似性。通过考虑附近异类细胞对关系计算而来,当附近的异类细胞变得和锚点更近时,增加了附近细胞对的自相似度,即使当前对的自相似度不变,其相对相似度也减少。

3) 正样本相对相似性。通过考虑附近同类细胞对关系计算而来,当这些同类细胞变得和锚点更近的时候,当前对的相对相似度变小,因此该对的权重也变小。

多相似性损失函数赋予异类细胞对和正类细胞对相应权重。

异类细胞对的权重计算公式如下:

同类细胞对的权重计算公式如下:

异类细胞对的权重是通过联合计算其自相似性和负样本相对相似性而来,同类细胞对的权重与之类似。

最后为了验证该模型优势,应用不同度量学习算法分别对预处理后的训练集进行处理,借助转换训练集的线性映射将测试集和训练集映射到同一特征子空间。最后,将处理后的训练集送入不同分类器构建分类模型,识别测试集内细胞的类型。图1描述了本文的方法流程。

3 实验与分析

3.1 数据集介绍及预处理

本文从hemberg-lab获取baron_human、segerstolpe两个胰腺单细胞测序数据集。数据集的详细信息参见表1.

数据集预处理操作包括两部分:

1) 质量控制。数据集里的细胞需要满足一定基因数、短序列UMI(Unique Molecular Identifiers)数以及线粒体基因占比要求,并对数据集进行缩放和对数归一化处理。

2) 特征选择。采用M3drop[21]筛选特征基因。

3.2 实验设置

实验选取baron_human、segerstolpe两个数据集,数据预处理阶段要保证训练集的细胞类型可以覆盖测试集的数据类型。然后应用不同度量学习算法对预处理的训练集进行转换;为了避免样本分布不均匀对算法的影响,实验采取bootstrap 抽样的思想,每次抽取覆盖每一种细胞类型的20%的训练样本,对抽取的样本进行度量学习算法映射;由于测试集要和训练集映射在同一特征子空间下,因此测试集要与训练集特征相匹配,若有缺失特征用零补齐。随后,转换后的训练集送入不同的分类器训练分类模型,对胰腺组织单细胞测序数据进行分类。上述操作执行10次,对10次的结果求平均值,作为最后分类结果。

3.3 评价准则

评价指标有Accuracy(准确率)、Precision(精准度)、Recall(召回率)和F 1-score,4个指标的形式如下:

Accuracy计算的是所有分类正确细胞的预测数与总预测数的比值,其他指标计算方法是首先计算每一种细胞类别评估指标(Precision、Recall、F1-score),然后除以细胞类型个数取平均值。

3.4 结果与分析

3.4.1 不同度量学习算法处理数据集后的聚类效果

以baron_human数据集为例,分别使用PCA、ICA、LDA[22]、DCA、LMNN、MSL-LMNN 度量学习算法对数据集进行线性映射,并进行数据可视化。图2展示了各种算法转换baron_human数据集前后的聚类效果。从图中可以看出PCA 和ICA 算法转换数据集的效果并不理想,处理后的数据分布和原始数据相比差别不大;DCA、LDA、LMNN 和MSL-LMNN 则可以使得同类型细胞聚拢,不同类细胞间隔变大;相较于LDA、DCA 算法,通过LMNN 和MSL-LMNN 算法学习到的度量更适合数据特征,同类样本距离变得紧凑,不同类样本的界限明显。相较于LMNN 算法,MSL-LMNN 转换后的数据集,同类内间距变得更小、异类间距离变得更大,边缘离散点聚集效果更加明显。

3.4.2 不同度量学习算法和不同分类器的细胞分类结果

对经过不同度量学习算法处理后的训练集,分别采用支持向量机[23]、随机森林[24]与KNN 分类器构建分类模型,然后对测试集进行分类。实验结果如表2、3所示。

从表2、3 中可以看出,当指定分类器时,与PCA、LDA、ICA、DCA、LMNN 算法相比,MSLLMNN 算法转化数据集后的综合分类效果是最佳的。MSL-LMNN 有效考虑了同类细胞和不同类细胞的多种相似度,借助优化准则求解距离变换矩阵,使同种细胞距离变小,不同种细胞距离变大。LMNN 算法是针对KNN 分类器的度量学习算法,但在实验中发现KNN 的分类效果并不一定优于SVM 和Random Forest.这与数据集的细胞类型数目有关,两个数据集中有的细胞类型数量差异较大,因此KNN 倾向于选择数量较多的一类。实验结果发现,Random Forest在各种度量学习算法后的分类效果是最好的,原因是随机森林多次抽取样本子集和特征子集进行训练,计算最佳的分割方式;对于样本分布不平衡的baron_human和segerstolpe胰腺数据集,随机森林能提供平衡数据集误差的有效方法。基于以上结果,本文设计了基于MSL-LMNN 和随机森林的胰腺单细胞测序数据分类方法。

3.4.3 与其他自动细胞分类方法的对比

为了验证本文设计方法的性能,对比了目前广泛使用的5 种自动细胞类型鉴定方法scmap-cluster[4]、CHETAH[5]、scPred[6]、SciBet[7]、scLearn[14],6种方法的性能结果如表4所示。由表4可知,本文提出的基于MSL-LMNN 和随机森林的细胞类型鉴定方法相比其他方法优势突出,绝大部分分类指标排在前列。其他单细胞分类方法构建的分类模型主要是比较目标数据集和参考数据集细胞之间的相似性,依据以往经验选取分类阈值,面对不同细胞类型和不同数据集时无法保持稳定的分类性能。如CHETAH 在baron_human作为训练集、segerstolpe作为测试集时,分类性能良好,但在segerstolpe作为训练集、baron_human作为测试集时较其他方法准确度下降幅度最大,而精确度上升,说明CHETAH 对baron_human数据集里的某些细胞类型可以有效分类,但无法对所有的细胞类型保持同样的高效分类效果。在baron_human作为训练集、segerstolpe作为测试集时,scmap-cluster和scPred以及SciBet的分类效果明显,而在segerstolpe作为训练集、baron_human作为测试集时,分类性能有所欠缺,说明上述模型面对不同单细胞数据集时无法学习到充足的样本间信息,不能保持稳定且高效的分类性能。

本文设计的基于MSL-LMNN 和随机森林的自动单细胞分类方法可以最大化单细胞测序数据的类内紧凑度和类间复杂度,有利于进行单细胞分类任务。

4 结论

本文通过MSL-LMNN 模型实现了胰腺单细胞类型自动鉴定,解决了胰腺单细胞测序数据分类方法中存在的准确率较低和细胞间距离度量不足的问题。从多角度衡量相似性出发,在LMNN 算法中加入多重相似性损失的思想,突破了LMNN 算法中传统三元组损失对相似度衡量的局限性。在胰腺单细胞数据集baron_human和segerstolpe上的实验表明,与其他度量学习算法相比,基于MSLLMNN 的分类准确率更高。相较于现有单细胞分类方法,基于MSL-LMNN 和随机森林的分类效果有进一步提高。本文方法可以有效鉴别胰腺组织里的细胞类型,为研究人员注释单细胞测序数据细胞类型提供参考。

[1]晁珊珊,卜鹏程.单细胞转录组测序技术发展及应用[J].中国细胞生物学学报,2019,41(5):834-840.CHAO S S,BU P C.Application of single-cell RNA-seq:an update review[J].Chinese Journal of Cell Biology,2019,41(5):834-840.

[2]SHEKHAR K,MENON V.Identification of cell types from single-cell transcriptomic data[J].Methods in Molecular Biology(Clifton,N.J.),2019,1935:45-77.

[3]ABDELAAL T,MICHIELSEN L,CATS D,et al.A comparison of automatic cell identification methods for single-cell RNA sequencing data[J].Genome biology,2019,20(1):194.

[4]KISELEV V Y,YIU A,HEMBERG M.Scmap:projection of single-cell RNA-seq data across data sets[J].Nature Methods,2018,15(5):359-362.

[5]DE KANTER J K,LIJNZAAD P,CANDELLI T,et al.CHETAH:a selective,hierarchical cell type identification method for single-cell RNA sequencing[J].Nucleic Acids Research,2019,47(16):e95.

[6]ALQUICIRA-HERNANDEZ J,SATHE A,JI H P,et al.ScPred:accurate supervised method for celltype classification from single-cell RNA-seq data[J].Genome Biology,2019,20(1):264.

[7]LI C W,LIU B L,KANG B X,et al.SciBet as a portable and fast single cell type identifier[J].Nature Communications,2021,12(1):1877.

[8]KIM T,CHEN I R,LIN Y X,et al.Impact of similarity metrics on single-cell RNA-seq data clustering[J].Briefings in Bioinformatics,2019,20(6):2316-2326.

[9]WANG B,ZHU J,PIERSON E,et al.Visualization and analysis of single-cell RNA-seq data by kernel-based similarity learning[J].Nature Methods,2017,14(4):414.

[10]SKINNIDER M A,SQUAIR J W,FOSTER L J.Evaluating measures of association for single-cell transcriptomics[J].Nature Methods,2019,16(5):381-386.

[11]ABDI H,WILLIAMS L J.Principal component analysis[J].Wiley Interdisciplinary Reviews Computational Statistics,2010,2(4):433-459.

[12]TRAPNELL C,CACCHIARELLI D,GRIMSBY J,et al.The dynamics and regulators of cell fate decisions are revealed by pseudotemporal ordering of single cells[J].Nature Biotechnology,2014,32(4):381-386.

[13]HYVÄRINEN A,HURRI J,HOYER P O.Independent component analysis[M].London:Springer London,2009.

[14]DUAN B,ZHU C Y,CHUAI G H,et al.Learning for single-cell assignment[J].Science Advances,2020,6(44):eabd0855.

[15]HOI S,WEI L,LYU M R,et al.Learning distance metrics with contextual constraints for image retrieval[C]∥IEEE Conference on Computer Vision and Pattern Recognition.New York,USA:IEEE,2006:2072-2078.

[16]WEINBERGER K Q,SAUL L K.Distance metric learning for large margin nearest neighbor classification[J].Journal of Machine Learning Research,2009,10(1):207-244.

[17]GE W F,HUANG W L,DONG D K,et al.Deep metric learning with hierarchical triplet loss[C]∥Proceedings of the 15th European Conference on Computer Vision (ECCV).Munich,GERMANY,2018:272-288.

[18]SONG H O,XIANG Y,JEGELKA S,et al.Deep metric learning via lifted structured feature embedding[C]∥Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Seattle,WA,2016:4004-4012.

[19]WANG X,HAN X T,HUANG W L,et al.Multi-similarity loss with general pair weighting for deep metric learning[C]∥Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).Long Beach,CA,2019:5017-5025.

[20]COVER T M,HART P E.Nearest neighbor pattern classification[J].IEEE Transinftheory,1953,13(1):21-27.

[21]ANDREWS T S,HEMBERG M.M3Drop:dropout-based feature selection for scRNASeq[J].Bioinformatics,2019,35(16):2865-2867.

[22]FISHER R A.The Statistical utilization of multiple measurements[J].Annals of Human Genetics,2012,8(4):376-386.

[23]CHEN P H,LIN C J,SCHLKOPF B.A Tutorial onν-support vector machines[J].Applied Stochastic Models in Business and Industry,2005,21(2):111-136.

[24]CUTLER D R,EDWARDS T C,BEARD K H,et al.Random forests for classification in ecology[J].Ecology,2007,88(11):2783-2792.