Nat. M.L. | 将多组学数据与图卷积网络整合以识别新的癌症基因及其相关的分子机制
题目:Integration of multiomics data with graph convolutional networks to identify new cancer genes and their associated molecular mechanisms
杂志:Nature Machine Intelligence
IF: 15
时间:12 April 2021
链接:https://www.nature.com/articles/s42256-021-00325-y
摘要
随着可用的高通量分子数据的增加,也为识别癌症基因带来了计算上的挑战。遗传和非遗传原因都有可能造成肿瘤的发生,这就需要开发预测模型来有效地整合不同的数据模式,同时具有可解释性。我们介绍了EMOGI,这是一种基于图卷积网络的可解释的机器学习方法,其通过结合多组学的泛癌症数据来预测癌症基因,如突变、拷贝数变化、DNA甲基化和基因表达,蛋白质-蛋白质相互作用(PPI) 网络等。在不同的PPI网络和数据集中,EMOGI总体来说比其他方法更准确。我们使用分层相关性传播,根据基因的分类是由相互作用组还是由任何一个全向性水平驱动,对基因进行分层,并确定PPI网络的重要模块。我们提出了165个新的癌症基因,这些基因不一定有反复的改变,但与已知的癌症基因有相互作用。而且我们发现,这些基因与功能缺失筛查中的基本基因相对应。我们相信,我们的方法可以为精准肿瘤学开辟新的途径,并可应用于预测癌症的生物标志物。
EMOGI框架的示意图。a, 数据收集和串联。计算16个TCGA肿瘤类型的所有基因的平均突变率、CNAs、DNA甲基化和基因表达变化,并在一个早期整合方案中进行连接。然后将得到的特征矩阵与PPI网络和一小部分高置信度的癌症/非癌症基因相结合,形成一个网络,其中节点对应于基因,边对应于它们之间已知的相互作用。每个节点/基因都有一个多维的特征向量(b,输入层)。
b,在EMOGI模型训练期间,特征通过连续的图卷积层进行转化(见方法),考虑到越来越大的邻域。输出层根据基因的输出概率将其分类为预测的癌症基因和非癌症基因。
c, 使用LRP(见方法)提取每个基因分类的最重要的特征(包括不同癌症类型的全能性水平和相互作用伙伴)。随后根据基因的特征贡献进行聚类,每个基因的相互作用贡献被用来检测癌症中具有重要基因-基因联系的模块。