生信拾光


  • 首页

  • 标签

  • 分类

  • 归档

  • 搜索

220203|文献摘要

发表于 2022-02-03 | 分类于 literature |
字数统计: 1k | 阅读时长 ≈ 3

Nat. M.L. | 将多组学数据与图卷积网络整合以识别新的癌症基因及其相关的分子机制

题目:Integration of multiomics data with graph convolutional networks to identify new cancer genes and their associated molecular mechanisms

杂志:Nature Machine Intelligence

IF: 15

时间:12 April 2021

链接:https://www.nature.com/articles/s42256-021-00325-y

摘要

随着可用的高通量分子数据的增加,也为识别癌症基因带来了计算上的挑战。遗传和非遗传原因都有可能造成肿瘤的发生,这就需要开发预测模型来有效地整合不同的数据模式,同时具有可解释性。我们介绍了EMOGI,这是一种基于图卷积网络的可解释的机器学习方法,其通过结合多组学的泛癌症数据来预测癌症基因,如突变、拷贝数变化、DNA甲基化和基因表达,蛋白质-蛋白质相互作用(PPI) 网络等。在不同的PPI网络和数据集中,EMOGI总体来说比其他方法更准确。我们使用分层相关性传播,根据基因的分类是由相互作用组还是由任何一个全向性水平驱动,对基因进行分层,并确定PPI网络的重要模块。我们提出了165个新的癌症基因,这些基因不一定有反复的改变,但与已知的癌症基因有相互作用。而且我们发现,这些基因与功能缺失筛查中的基本基因相对应。我们相信,我们的方法可以为精准肿瘤学开辟新的途径,并可应用于预测癌症的生物标志物。

image-20220203092107638

EMOGI框架的示意图。a, 数据收集和串联。计算16个TCGA肿瘤类型的所有基因的平均突变率、CNAs、DNA甲基化和基因表达变化,并在一个早期整合方案中进行连接。然后将得到的特征矩阵与PPI网络和一小部分高置信度的癌症/非癌症基因相结合,形成一个网络,其中节点对应于基因,边对应于它们之间已知的相互作用。每个节点/基因都有一个多维的特征向量(b,输入层)。

b,在EMOGI模型训练期间,特征通过连续的图卷积层进行转化(见方法),考虑到越来越大的邻域。输出层根据基因的输出概率将其分类为预测的癌症基因和非癌症基因。

c, 使用LRP(见方法)提取每个基因分类的最重要的特征(包括不同癌症类型的全能性水平和相互作用伙伴)。随后根据基因的特征贡献进行聚类,每个基因的相互作用贡献被用来检测癌症中具有重要基因-基因联系的模块。

阅读全文 »

220202 | 文献摘要

发表于 2022-02-02 | 分类于 literature |
字数统计: 840 | 阅读时长 ≈ 3

Nat. M.L. | 通过学习随机掩码来解释生物序列的神经网络

题目:Interpreting neural networks for biological sequences by learning stochastic masks

杂志:Nature Machine Intelligence

IF: 15

时间:25 January 2022

链接:https://www.nature.com/articles/s42256-021-00428-6

摘要

基于序列的神经网络可以从大型生物数据集中学习从而做出准确的预测,但模型的解释仍然具有挑战性。许多现有的特征归属方法是针对连续的而不是离散的输入模式而优化的,并孤立地评估单个特征的重要性,使它们不适合解释分子序列中的非线性相互作用。在这里,在计算机视觉和自然语言处理的工作基础上,我们开发了一种基于深度学习-扰频器网络(Scrambler networks)的方法,其中最重要的序列位置是通过学习输入掩码(input masks)确定的。扰频器学习预测特定位置的评分矩阵,其中不重要的核苷酸或残基通过提高其熵值而被扰乱。我们应用加扰频器来解释遗传变异的影响,发现顺式调控元素之间的非线性相互作用,解释蛋白质-蛋白质相互作用的结合特异性,并确定从头设计的蛋白质的结构决定因素。我们表明,扰频器能够在大型数据集上进行有效的归因,并产生高质量的解释,往往优于最先进的方法。

image-20220202083212293

阅读全文 »

综述|利用深度学习进行多组学数据整合的路线图

发表于 2022-01-11 | 分类于 literature |
字数统计: 242 | 阅读时长 ≈ 1

文章信息

题目:A roadmap for multi-omics data integration using deep learning

杂志:Briefings in Bioinformatics

IF: 11.62

时间:12 November 2021

链接:https://doi.org/10.1093/bib/bbab454

一句话评价

介绍了利用深度学习对多组学数据的整合和应用以及优缺点

image-20220202090004483

阅读全文 »

乳腺癌治疗反应的多组学机器学习预测器

发表于 2022-01-10 | 分类于 literature |
字数统计: 474 | 阅读时长 ≈ 1

题目:Multi-omic machine learning predictor of breast cancer therapy response

杂志:Nature

IF: 49.96

时间:7 Dec. 2021

链接:https://www.nature.com/articles/s41586-021-04278-5

代码:

  • https://github.com/micrisor/NAT-ML
  • https://github.com/cclab-brca/neoadjuvant-therapy-response-predictor

一句话概括

使用逻辑回归,SVM和随机森林的组合机器学习方法,结合临床数据、数字病理学数据、基因组和转录组学数据,对乳腺癌治疗的反应进行预测

###摘要

乳腺癌是由恶性细胞和肿瘤微环境组成的复杂生态系统。这些肿瘤生态系统的组成和其中的相互作用有助于细胞毒性治疗反应。构建细胞毒性治疗反应的预测器还有待研究。这篇文章收集了168名患者在手术前接受化疗+/-HER2靶向治疗的乳腺肿瘤治疗前活检的临床、数字病理学、基因组和转录组资料。然后将手术时的病理终点(完全反应或残余疾病)与这些诊断性活检的多组学特征相关联。他们发现,对治疗的反应是由预处理的肿瘤生态系统调节的,其多组学景观可以用机器学习整合到预测模型中。治疗后残余疾病的程度与治疗前的特征单调相关,包括肿瘤突变和拷贝数变异、肿瘤增殖、免疫浸润和T细胞功能紊乱和排斥。将这些特征结合到一个多组学机器学习模型中,可预测外部验证队列(75名患者)的病理完全反应,AUC为0.87。总之,对治疗的反应是由通过数据整合和机器学习捕获的整个肿瘤生态系统的基线特征决定的。这种方法可用于开发其他癌症的预测器。

image-20220111000724850

image-20220111000748893

211012|文献摘要

发表于 2021-10-12 | 分类于 literature |
字数统计: 1.1k | 阅读时长 ≈ 3

Nat. Biotechnol. | 通过迁移学习将单细胞数据映射到参考图谱

题目:Mapping single-cell data to reference atlases by transfer learning

杂志:Nature Biotechnology

IF: 54.91

时间:30 August 2021

链接:https://www.nature.com/articles/s41587-021-01001-7

摘要

现在,大型单细胞图谱被不断地生成,作为分析较小规模研究的参考。然而,由于数据集之间的批次效应、计算资源的有限可用性和原始数据的共享限制,从参考数据中学习是复杂的。在这里,我们介绍了一种深度学习策略,用于在称为单细胞结构手术(single-cell architectural surgery,scArches)的参考之上映射查询数据集。scArches使用转移学习和参数优化来实现高效、分散、迭代的参考构建和新数据集与现有参考的上下文关系,而无需分享原始数据。利用小鼠大脑、胰腺、免疫和全生物体图谱的例子,我们表明scArches保留了生物状态信息,同时消除了批量效应,而且使用的参数比从头整合少四个数量级。最后,scArches在映射到健康参照物时保留了COVID-19的疾病变异,从而能够发现疾病特定的细胞状态。scArches将通过实现参照物图谱的迭代构建、更新、共享和有效使用来促进合作项目。

image-20211012210720260

阅读全文 »
1234…26

六六

Seize the day! Collect the moment! Share the memory!

130 日志
5 分类
52 标签
RSS
0%
© 2023 六六 | Site words total count: 87.3k
博客全站共87.3k字