文章信息
题目:Multilabel classification for exploiting cross-resistance information in HIV-1 drug resistance prediction
杂志:Bioinformatics (Sequence Analysis)
IF: 5.610 (2019)
时间:June 21, 2013
链接:doi:10.1093/bioinformatics/btt331
一句话评价
多标签分类算法
遗传变异(genetic variation)是指一个群体中个体之间DNA序列的差异。变异可发生在生殖细胞(即精子和卵子)中,也发生在体细胞(所有其他)中。只有在生殖细胞中产生的变异才能从一个个体遗传给另一个个体,从而影响种群的动态,并最终影响进化。
突变(Mutation)和重组(Recombination)是变异的主要来源。
点突变Single base-pair mutation
只有一个碱基发生了替换,具体包括Transition和Transversion。Transition指嘌呤(A/G)之间或嘧啶(T/C)之间的替换。Transversion指嘌呤和嘧啶间的替换。
插入/缺失(Indel)
主要指在基因组某个位置上发生较短长度的线性片段插入或者删除的现象。强调线性的原因是,这里的插入和删除是有前后顺序的与下述的结构性变异不同。Indel长度通常在50bp以下,更多时候甚至是不超过10bp,这个长度范围内的序列变化可以通过Smith-Waterman 的局部比对算法来准确获得,并且也能够在目前短读长的测序数据中较好地检测出来。
结构变异
通常就是指基因组上大长度的序列变化和位置关系变化。类型很多,包括长度在50bp以上的长片段序列插入或者删除(Big Indel)、串联重复(Tandem repeate)、染色体倒位(Inversion)、染色体内部或染色体之间的序列易位(Translocation)、拷贝数变异(CNV)以及形式更为复杂的嵌合性变异。1Kb与3Mb之间的序列,包括插入、缺失、拷贝数变异、倒位和易位。
利用python进行数据分析和计算时,经常用到两种数据类型:数据框(DataFrame)和数组(array)。两种数据类型的转换、多个数据的合并以及计算数据中的最值等问题是频率较高的操作。下面介绍解决这些问题的方法。
首先导入python中最常用的数据处理两个模块:numpy模块、pandas模块。然后创建一个DataFrame类型数据df,两个数组arr1和arr2。