利用机器学习模型从全基因组序列中预测胸膜肺炎放线菌抗药性

文章信息

题目:Evaluation of Machine Learning Models for Predicting Antimicrobial Resistance of Actinobacillus pleuropneumoniae From Whole Genome Sequences

杂志:Frontiers in Microbiology

时间:06 February 2020

链接: https://doi.org/10.3389/fmicb.2020.00048

2020-05-07_fig2.png

文章概述

抗生素耐药性(AMR)正在成为世界各国面临的一个巨大公共安全问题,识别对某些抗生素耐药或易感菌株的新方法对于对抗抗生素耐药病原体至关重要。由于基因组数据集和AST表型越来越多,基于基因型的机器学习方法作为一种诊断工具显示出了巨大的希望。

本文采用支持向量机( Support Vector MachineSVM)和集覆盖机(**Set Covering MachineSCM)模型来学习和预测五种药物(四环素类、氨苄西林、磺胺恶唑、曲美沙星和恩诺沙星)的耐药性。SVM模型利用分离菌的基因组与参比基因之间共存的k-mers的数量来学习和预测细菌对特定抗生素的表型而单片机模型则采用贪婪的方法构造布尔函数的联结或解联,找到最简洁的k-mers集,从而准确预测表型。对SVM和SCM模型的训练集进行五倍交叉验证,选择最佳的超参数值,以避免模型过度拟合。结果表明,无论哪种药物的耐药机制是获得性耐药还是染色体点突变,5种药物的SVM和SCM模型的训练准确率(平均交叉验证得分)和测试准确率均在90%以上。5种药物的表型与模型预测的相关性结果表明,SVM和SCM模型均能显著地将耐药分离菌从敏感分离菌中分离出来(P<0.01),可作为抗生素耐药性监测和兽药临床诊断的潜在工具。

方法详解

数据来源:

  • Bosse等人(2017)文章获得96株胸膜肺炎分离菌株的5种抗菌药物(四环素、氨苄西林、磺胺恶唑、甲氧苄氨嘧啶和恩罗沙星)的WGS序列和双耐药表型

    • Study: PRJEB2343

Reference: Whole genome sequencing for surveillance of antimicrobial resistance in Actinobacillus pleuropneumoniae. Front. Microbiol. 8:311. doi: 10.3389/fmicb.2017.00311

分析方法:

  • WGS assemle: Velvet 1.2.08
  • AMR genes contig: 从ResFinder 数据库
  • matrix of the co-occurring k-mers:Ray Surveyor tool
  • Reference-Based SVM Model:radial basis function kernel,Python sklearn 包实现分析
  • Reference-Free SCM Model:implemented by Kover, an open-source software implemented in the Python and C programming languages
  • Model Selection and Performance Evaluation: five-fold cross-validation, 评价指标:sensitivity, specificity, accuracy, and precision