宏基因组物种鉴定工具

一句话评价

宏基因组物种鉴定工具集锦

文章信息

题目：Benchmarking Metagenomics Tools for Taxonomic Classification

杂志：Cell

时间：August 8,2019

文章介绍：

鉴定物种分类是宏基因组分析的一个必要和基础步骤，相关工具也是层出不穷，如何评价物种分类工具的性能，主要从鉴定的准确性、速度和所需要的计算资源这几方面考虑。

这篇文章针对20种常见的物种鉴定工具进行评估，并描述了如何评价工具性能。

下图展示了宏基因组的复杂的样本到物种鉴定和丰度计算的过程

figure

宏基因组的物种鉴定依赖于数据库，常见的数据库有RefSeq, blast nt和nr，以及16S rRNA特有的数据库SILVA。

召回率（Recall）和准精确度（Precision）是宏基因组物种鉴定中重要的两个度量概念，这两个概念也是统计学中经常见到的。

其中精度是检索出相关文档数与检索出的文档总数的比率，衡量的是检索系统的查准率；召回率是指检索出的相关文档数和文档库中所有的相关文档数的比率，衡量的是检索系统的查全率。

召回率 = 提取出的正确信息条数 / 样本中的信息条数

精确度= 提取出的正确信息条数 / 提取出的信息条数

两者取值在0和1之间，数值越接近1，查准率或查全率就越高。

F值 = 正确率 召回率 2 / (正确率 + 召回率) （F 值即为正确率和召回率的调和平均值）

F值是Precision和Recall加权调和平均

AUPR:是指precision和recal曲线下面的面积，也是一个综合考虑P-R两者来评估结果准确性的一个度量值。

L2 distance:是为了评估丰度准确性的参数值，通过计算在给定的分类水平上，每个已识别分类单元的ground-truth丰度和标准丰度计数之间的成对距离。

###物种分类工具和其性能

这里他们比较了20种宏基因组物种鉴定工具，利用相同的数据库分别比较了他们的precision, recall, F1, 速度和其他值。包括DAN-DNA鉴定，DNA-protein鉴定，和基于marker的鉴定方法。

AUPR值如下：值越接近1越好

L2 distance: 值越小越好

运行时间

碎碎念

没有做过宏基因组分析实际项目，看着这些软件名字完全没有感觉，也记不住，后续研究若用到的话可以参考这里做选择。

每日文献摘要：第19篇 2019年11月22日周五