随着蛋白质组学的发展,蛋白质相互作用的研究逐渐成为一个热门领域。虽然许多学者致力于研究PPIs网络中的蛋白质和蛋白质功能模块等,但这些研究结果均缺少信号转导的方向信息,这些信息通过蛋白质相互作用网络从一种蛋白质传递到另一种蛋白质来参与生命机制的运作,可用于探索病理机制[1]、研究细胞应答过程[2]、遏制疾病的发生[1]、预测蛋白质功能[3]等。在人类PPIs网络中,PPIs通常参与多个细胞过程的信号转导,其方向需要进一步的探索和研究。
经典的高通量技术手段往往用来预测蛋白质之间是否发生相互作用,很难发现PPIs间的方向性,随着生物信息学的发展,研究者们开始利用计算的手段将单个蛋白质的研究转向PPIs网络。目前,许多研究小组已经应用生物信息学方法在PPIs网络中定向信号转导途径。例如,STEFFEN et al[4]通过实验获得的PPIs与DNA微阵列的表达谱相结合来定向信号转导网络,但是该研究结果受到步长的限制;VINAYAGAM et al[5]利用每对PPI的最短路径数来定向人类信号传导网络,这依然受到最短路径的影响;LIU et al[6]通过使用蛋白功能注释隐含的上下游关系来区分PPIs的信号流向,但会因蛋白质研究程度的深浅而导致注释分布不均匀,最终限制该方法的使用。在本文中,为避免这些限制的影响,提出了一种基于网络传播具有良好拓展性的定向算法,并将其应用于人类PPIs网络。
随着随机游走[7]和迭代算法的发展,网络传播[8]的出现为指导大规模信号转导网络的研究提供了基础。这类方法的原理基于网络上信息的迭代传播,使信息遍布整个网络,它可以度量每个节点的表型在网络中的相似性而不受最短路径和步数的限制。网络传播可以灵活地应用于各种网络,因此可以进一步扩展成定向人类复杂PPIs网络的方法。目前,只有SILVERBUSH et al[9]尝试将网络传播算法应用于人类大规模PPIs网络。在此方法的基础上,本文还创新地结合了蛋白质语义相似性度量[10]和重叠聚类算法[11],并将其应用于预测人类大型PPIs网络的信号流方向。
虽然传播步数和最短路径的限制可以被网络传播算法弥补,但是复杂的网络结构自身不对称性和PPIs权重测量方法的自身缺陷会导致无向PPIs和有向PPIs的区分困难。通过结合重叠聚类算法来检测无向的PPIs,改善了网络传播算法关于识别无向PPIs的问题。在人类PPIs网络中,蛋白质复合物形成了密集的连接区域,且相应的节点可能属于一个以上的聚类,即参与多种复合物并发挥生物作用,这样的节点非常适合采用具有重叠邻域扩展的聚类算法进行预测。
为了度量蛋白质间的关联程度,从而为信号游走提供依据,需要计算PPIs的权重。虽然实验类型的证据可以作为蛋白质相互作用的度量手段,但是因实验条件与细胞环境的影响容易造成假阴性数据。在信号转导网络中,功能相似的蛋白质之间倾向于相互作用。基于GO(gene ontology)[12]语义相似度的simIC[13]和BMA(best-mach average)[14]来计算PPIs的权重,这避免了受实验类型测量和蛋白质浅注释的限制。
本文的目的是区分有向PPIs和无向的PPIs,并预测有向PPIs的方向性,从而定向人类的PPIs网络,为后续信号转导网络的研究打下基础。为实现这一目的,本文通过结合蛋白质语义相似性度量和重叠聚类算法,利用网络传播算法来定向人类PPIs网络的信号流方向。
为定向PPIs网络,算法的过程分以下几步:1) 利用蛋白质语义相似性计算PPIs的权重;2) 运行网络传播算法,获得每个PPI的得分;3) 利用Cluster ONE区分无向PPIs和有向PPIs;4) 判断有向PPIs的方向,形成有向的PPIs网络。其中,步骤2)和3)不分先后顺序可同时进行。
算法的输入为通过预处理的无向的PPIs网络以及网络涉及的源蛋白和靶蛋白,这里的源蛋白为整个PPIs网络的信号起点,靶蛋白为信号终点。算法输出的是PPIs的分数列表,每对PPI都有对应的分数来代表信号流的方向。算法框架如图1所示。
图1 算法的框架
Fig.1 Framework of the algorithm
1.2.1网络和测试集
为了改进算法,本文准备了网络,并删除了其方向信息。该网络来自KEGG(https://www.kegg.jp/kegg/)的VEGF信号转导途径,且仅包括蛋白质间的相互作用,PPIs的权重是通过蛋白质功能注释来计算的。网络中的源蛋白和靶蛋白均从VEGF信号转导图中获得。
同时,还收集了已知方向的PPIs和经实验验证的蛋白质复合物作为测试集,如下:
1) 从CORUM数据库(http://mips.helmholtz-muenchen.de/corum/)中整理了2 916个蛋白质复合物。
2) 从KEGG数据库(https://www.kegg.jp/)中下载了567对涉及整合素参与的PPIs,其中包括137对有向的PPIs,430对无向的PPIs.
3) 从VINAYAGAM et al[5]计算的结果中获得34 814对有向的PPIs.
1.2.2人类PPIs网络
为构建人类PPIs网络,收集了473个参与KEGG信号转导通路的蛋白质(其中有99个蛋白质与整合素参与的网络有关),并对此数据集做了预处理。首先,在String数据库(https://string-db.org)中获得初步的PPIs网络,并输入收集到的473个蛋白质,设置蛋白质相互作用来源为文字挖掘、实验、资料库、共表达、基因融合等,剔除相互作用的得分低于0.7的PPIs(分数高于0.7的PPIs可靠性高),最终获得4 668对PPIs;其次,处理PPIs中的假阳性问题,利用蛋白质语义相似性筛选并获得4 220对权重大于0.4的PPIs(本文设置权重为0.4作为区分蛋白质功能关联的阈值);最后,构建加权的功能相关的PPIs网络。
PPIs的权重将从根本上决定信号传播方向的准确性问题。本文结合simIC和BMA,借助DaGO-Fun软件[15]来计算PPIs权重。该方法根据蛋白质的GO注释来计算蛋白质的语义相似性或者功能相似性,从而表征PPIs权重。计算方法如下:
(1)
(2)
式(1)定义了术语的语义相似性度量。其中,t是注释蛋白质的术语;MICA表示t1和t2的信息最丰富的共同祖先;IC(t)代表术语t在语料库中的普及程度。式(2)通过评价注释两个蛋白质的所有术语之间的语义相似性来确定PPIs权重。其中,p和q是相互作用的蛋白;x代表生物学过程(BP)本体注释的一组GO术语,给定的蛋白质n,m分别代表集合中GO项的数量。
参照SILVERBUSH et al[9]的方法将网络传播应用于PPIs网络。首先,输入一个加权的PPIs网络,源蛋白和靶蛋白(源蛋白为膜蛋白,靶蛋白为肌动蛋白和基因调控蛋白);其次,网络传播将信息从源蛋白开始以迭代的方式传播到附近的节点直到收敛,传播结束后PPIs网络中每个蛋白质获得的分数代表其与源蛋白的接近度,同理,将信息从靶蛋白开始传播,每个蛋白质获得的分数代表其与靶蛋白的接近度;最后,算法通过组合两个蛋白质的得分来比较两个蛋白质接近源蛋白和靶蛋白的程度,输出代表PPIs方向的分数。算法过程如下:
Input:G(V,E),ci∈C,ti∈T,w(u,v)
from sources:Pc=(c1,c2,…,cn)1×nF'c=α·Fc·W+(1-α)Pcif ‖F'c-Fc‖2 <β:stop︙︙︙︙︙︙︙︙from sources:pt="(t1,t2,…,tn)1×nF't=α·Ft·W+(1-α)Ptif" ‖f't-ft‖2<β:stop< p>β:stop︙︙︙︙︙︙︙︙from>
Output:
if score(u,v)>1:u→v
if score(u,v)<1:u←v
输入一个无向图G=(V,E),其中,V表示蛋白质的集合;E表示PPIs的集合;C和T分别是源蛋白和靶蛋白的集合,w(u,v)表示蛋白质u和v相互作用的权重。在算法的过程中:W是归一化的权重矩阵,N(u)代表蛋白质u的邻居的集合。Pc和Pt分别是关于源蛋白和靶蛋白的先验知识的向量(若ci∈C,ci=1,ti同理)。α是网络和先验知识的平衡参数,设为0.6.β=10-5是控制传播停止的参数。算法结束后,获得PPIs的分数列表。PPIs的分数大于1,意味着u比v更靠近源蛋白,u、v间的信号流方向u→v;当PPIs的分数小于1,u、v间的信号流方向u←v.
重叠聚类算法用来区分无向PPIs与有向PPIs. ClusterONE算法通过寻找具有内聚性的重叠蛋白质复合物团来预测无向PPIs,算法的实现借助Cytoscape软件[16]中的ClusterONE插件。在操作过程中,分别选择了加权的PPIs网络和未加权的PPIs网络作为输入,使用表1中的参数来计算聚类。
表1 ClusterONE参数
Table 1 Parameters of ClusterONE
ParameterValueMinimum3Minimum densityAutoEdge weightUnweightedNode penalty2Haircut threshold0Merging methodSingle-passSimilarityMatch coefficientOverlap threshold0.8Seeding methodFrom unused node
大型的PPIs网络中,无向PPIs并未经过全面的验证,使用传统的准确率、灵敏度等来评估预测的无向PPIs会降低分数。本文使用GO功能富集分析来评估无向PPIs的预测能力,利用具有生物学意义P值范围内的无向PPIs数量占所有预测的无向PPIs数量的比例,来量化预测的无向PPIs的生物学意义。
为了评估预测的有向PPIs的方向性,计算了ROC曲线。ROC曲线展示了不同阈值下的敏感性和1-特异性,敏感性和特异性用来衡量定向算法在不同阈值下识别有向PPIs中真阳性和假阳性的能力。阈值是分界线,被用来区分PPIs的方向。如果PPI(蛋白质u与蛋白质v相互作用)的分数高于阈值,则方向为u→v,反之亦然。ROC曲线下的面积(AUC)越大,算法的性能越好。
为了初步测试PPIs权重对定向的影响,网络传播算法对区分无向PPIs和有向PPIs以及预测有向PPIs方向性的性能,选择了VEGF信号转导途径。将加权的(通过蛋白质语义相似性来计算)网络输入到网络传播中,获得PPIs分数,从而绘制分数分布的统计图,如图2所示。根据网络传播算法,分数分布在1左右的PPIs,因两个蛋白在接近源蛋白与靶蛋白的程度上相近而被归类为无向的PPIs. 为了检验该结论,将PPIs得分进行了划分(见图3),并将结果与已知方向的信号路径进行了比较。结果表明,如果仅使用网络传播算法,将限制无向PPIs和有向PPIs的划分,因此需要结合其他方法来区分无向PPIs和有向PPIs,以实现比VEGF通路更复杂的网络的定向。
图2 PPIs分数的分布
Fig.2 Score distribution of PPIs
图3 不同分数段中的PPIs数量
Fig.3 Number of PPIs in different fractions
为了消除分布在1左右的分数对区分无向PPIs和有向PPIs的影响,将所有PPIs视为有向PPIs,并以分数1作为分界线来区分信号流的方向,获得了有向VEGF信号转导途径(见图4).与KEGG中的原始通路相比,本文只有一个PPI被错误地预测,而原始方法有4个PPIs被错误地预测。因此,当不考虑无向PPIs的区分时,通过使用蛋白质语义相似性来计算小型PPIs网络的权重提高了信号流方向的预测水平。
图2中,当不考虑无向PPIs的得分时,期望得分大于1的PPI的方向性为u→v(蛋白质u和v之间的相互作用),得分小于1的PPI的方向性为u←v. 图3中,有4对PPIs在0.9~1.1的得分范围内,只有1对属于真正的无向PPI,其得分为0.910 9,这意味着网络传播算法在识别无向PPIs时存在缺陷。当面向更加复杂的网络时,分数1左右的PPIs的数量将更加庞大,会掺杂更多的假阳性数据。图4中,节点代表蛋白质,线代表PPIs,箭头代表预测的信号流方向。该网络包含28种蛋白质,其中红色矩形为源蛋白质,蓝色菱形为目标蛋白质。在32个PPIs中有一个PPI被错误预测,用红线标记。
图4 PPIs的方向
Fig.4 Direction of PPIS
结合蛋白质语义相似性测量和重叠聚类算法,将改良后的算法用于定向大型的人类PPIs网络。在无向PPIs的预测中,使用加权PPIs网络和未加权PPIs网络,分别获得了两组预测的无向PPIs,为了评估预测的无向PPIs,分别对其进行GO功能富集分析,并统计了P<0.05以内不同范围的无向PPIs数量以及占所有预测的无向PPIs数量的比例,结果见表2.虽然两组预测的结果中,具有显著的生物学意义的无向PPIs均占较高的比例,分别为86.86%和95.79%,但是未加权PPIs网络的结果优于加权的PPIs网络,这也许与该网络为蛋白质功能相关的网络而非物理相关的网络有关。最终选取未加权的PPIs网络获得的1 664对PPIs作为预测集的无向PPIs.
表2 GO功能富集分析
Table 2 Functional enrichment analysis of GO
P值范围未加权网络的无向PPIs加权网络的无向PPIs
预测的2 556对有向的PPIs,其方向性的统计如图5所示。为了评估算法对有向PPIs的方向性的预测性能,分别将结果与KEGG数据集和VINAYAGAM et al[5]的计算结果相重叠的部分进行统计(如图6所示)绘制ROC曲线,KEGG测试集中PPIs的方向性得到了大量数据的验证,当以KEGG作为测试集时,算法的结果获得了较好的性能(见图7),这表明本文的结果具有较好的参考价值。
图5 预测的有向PPIs方向性数量分布
Fig.5 Predicted directional quantity distribution of oriented PPIs
图5中,分数小于1的信号流的方向规定为u←v,分数大于1的信号流的方向规定为u→v.图6验证了分数1在大型的复杂网络中也不能明确区分无向PPIs和有向PPIs,表明改良后的算法在区分无向PPIs和有向PPIs的必要性。由图7可以看出,算法在经过大量验证的KEGG数据集上获得了较好的结果(AUC为0.813).
图6 预测的无向PPIs和有向PPIs分数分布箱型图
Fig.6 Predicted unerieuted and oriented PPIs box graphs
图7 两组测试集的ROC曲线
Fig.7 ROC curves for two test sets
本文提出了一个新的网络传播的方法来预测PPIs网络信号流的方向,它结合了蛋白质语义相似性度量和重叠聚类算法。将此方法用于人类PPIs网络并取得了较好的结果,这个结果将有助于进一步研究人类PPIs网络的相关信息。
虽然方法的性能较好,但是仍存在一些缺陷。1) 此方法只能用于复杂的PPIs网络,因为重叠聚类算法在简单通路中不能正确获得无向的PPIs;2) 源蛋白和靶蛋白来源于已知信息,不能进行源蛋白和靶蛋白的预测;3) 需要进一步考虑范围在1左右的分数对有向PPIs和无向PPIs区分的影响。
[1] THIELE C J,LI Z,MCKEE A E.On Trk-the TrkB signal transduction pathway is an increasingly important target in cancer biology[J].Clin Cancer Res,2009,15(19):5962-5967.
[2] PALANIAPPAN N,ANBALAGAN S,NARAYANAN S.Mitogen-activated protein kinases mediate mycobacterium tuberculosis-induced CD44 surface expression in monocytes[J].Journal of Biosciences,2012,37(1):41-54.
[3] SHARMA P,BHATTACHARYYA D K,KALITA J K.Protein complex finding and ranking:an application to Alzheimer’s disease[J].Journal of Biosciences,2017,42(3):383-396.
[4] STEFFEN M,PETTI A,AACH J,et al.Automated modelling of signal transduction networks[J].BMC Bioinformatics,2002,3(1):34.
[5] VINAYAGAM A,STELZL U,FOULLE R,et al.A directed protein interaction network for investigating intracellular signal transduction[J].Science Signaling,2011,4(189):1-8.
[6] LIU W,LI D,ZHU Y P,et al.Reconstruction of signaling network from protein interactions based on function annotations[J].IEEE/ACM Transactions on Computational Biology & Bioinformatics,2013,10(2):514-521.
[7] CHEN X,LIU M X,YAN G Y.Drug-target interaction prediction by random walk on the heterogeneous network[J].Molecular Biosystems,2012,8(7):1970-1978.
[8] COWEN L,IDEKER T,RAPHAEL B J,et al.Network propagation:a universal amplifier of genetic associations[J].Nature Reviews Genetics,2017,18(9):551-562.
[9] SILVERBUSH D,SHARAN R.A systematic approach to orient the human protein-protein interaction network[J].Nature Communications,2019,10(1):3015.
[10] GUZZI P H,MINA M,GUERRA C,et al.Semantic similarity analysis of protein data:assessment with biological features and issues[J].Briefings in Bioinformatics,2012,13(5):569-585.
[11] NEPUSZ T,YU H,PACCANARO A.Detecting overlapping protein complexes in protein-protein interaction networks[J].Nature Methods,2012,9(5):471-472.
[12] BLAKE J A,CHAN J,KISHORE R,et al.Gene ontology consortium:going forward[J].Nuclc Acids Research,2015,43:1049-1056.
[13] LI B,WANG J,FELTUS F A,et al.Effectively integrating information content and structural relationship to improve the go-based similarity measure between proteins[J/OL].Arxiv preprint Arxiv:1001.0958:1-54.http://arxiv.org/pdf/1001.0958.
[14] PESQUITA C,FARIA D,BASTOS H,et al.Metrics for GO based protein semantic similarity:a systematic evaluation[J].BMC Bioinformatics,2008,9(5):S4.
[15] MAZANDU G K,MULDER N J.DaGO-fun:tool for gene ontology-based functional analysis using term information content measures[J].BMC Bioinformatics,2013,14:284.
[16] SHANNON P,MARKIEL A,OZIER O,et al.Cytoscape:a software environment for integrated models of biomolecular interaction networks[J].Genome Res,2003,13(11):2498-2504.