生信拾光


  • 首页

  • 标签

  • 分类

  • 归档

  • 搜索

MCC | 机器学习中优于F1-score和accuracy的一个性能评价指标

发表于 2022-03-28 | 分类于 Data Sciences |
字数统计: 955 | 阅读时长 ≈ 3

在机器学习中,模型性能的评估是一个关键问题。常见的评价指标有F1-score, Accuracy, Precision, Recall, ROC 和 AUC (对这些评价指标不了解的,可以参考生信菜鸟团之前的一篇文章: 机器学习实战 | 机器学习性能指标 )。但是我们对这些统计指标的可靠性要保持谨慎的态度,特别是在不平衡的数据集上。

F1-score, Accuracy, Precision, Recall

例如,在一个二元分类模型中,我们的数据是宠物图像,每张图片可以是狗🐶或猫🐱,分类器在每张照片中检测到一只宠物,然后我们测量其性能。假如我们总共有24张图片,然后分类器检测的混淆矩阵如下:

image-20220401104509019

我们依次计算下Precision, Recall, F1 score。

1
2
3
4
5
Precision = TP/(TP+FP) = 18/(18+3) = 0.86

Recall = TP/(TP+FN) = 18/(18+2) = 0.90

F1 = 2 * (Precision*Recall/Precision+Recall) = 0.88

从以上这些指标的计算结果来看,我们的模型似乎还不错。但是关于猫 (negative class)的分类,只有1个是正确识别了。那为什么F1-score的值还这么高呢?

从计算公式中,我们可以看出来,无论是Precision, Recall还是F1 score,他们都只关注了一个类别,即positive class。TN完全没有考虑。

如果我们设定数据中猫是Positive class,那么我们的混淆矩阵可以转换为:

image-20220401111415412

1
2
3
4
5
Precision = TP/(TP+FP) = 1/(1+2) = 0.33

Recall = TP/(TP+FN) = 1/(1+3) = 0.25

F1 = 2 * (Precision*Recall/Precision+Recall) = 0.29

从这里的计算结果可以发现,这个分类器对猫的识别很差。

然后我们再看下Accuracy,

1
Accuracy = TP+TN/(TP+TN+FP+FN) = 19/24=0.79

这个结果是相当有误导性的,因为虽然 90% (18/20)的狗被准确分类,但猫只有 25% (1/4)。如果取平均值,结果也只有57.5%,也是低于79%的。这里的原因是因为数据中两个分类的类别是不平衡的。

从以上计算中可以知道Accuracy对类别不平衡很敏感;Precision, Recall和 F1 score是不对称的,只关注了一个类别。

Matthews correlation coefficient,MCC

马修斯相关系数 (MCC)是phi系数(φ)的一个特例。即将True Class和Predicted Class视为两个(二进制)变量,并计算它们的相关系数(与计算任何两个变量之间的相关系数类似)。真实值和预测值之间的相关性越高,预测效果越好。只有当预测在所有四个混淆矩阵类别(TP、TN、FN和FP)中都获得了良好的结果时,它才会产生高分。

计算公式如下:

image-20220401114108284

根据计算公式,可知当分类器是完美的(FP = FN = 0),MCC的值是1,表示完全正相关。相反,当分类器总是分类错误时(TP = TN = 0),得到的数值是-1,代表完美的负相关。所以,MCC的值总是在-1和1之间,0意味着分类器不比随机二分类选择好。此外,MCC是完全对称的,所以没有哪个类别比其他类别更重要,如果把正反两个类别换一下,仍然会得到相同的值。

然后我们再计算一下,上面例举的数据中MCC的值:

image-20220401115041223

MCC的值是0.17 ,表明预测类和真实类是弱相关的。从以上的计算和分析,我们知道这种弱相关是因为分类器不擅长对猫进行分类。

在python中,scikit-learn模块包含MCC计算的函数

sklearn.metrics.matthews_corrcoef(y_true, y_pred, *, sample_weight=None)

1
2
3
4
5
from sklearn.metrics import matthews_corrcoef
y_true = [+1, +1, +1, -1]
y_pred = [+1, -1, +1, +1]
matthews_corrcoef(y_true, y_pred)
-0.33...

参考资料

  • The advantages of the Matthews correlation coefficient (MCC) over F1 score and accuracy in binary classification evaluation.
  • Matthews Correlation Coefficient is The Best Classification Metric You’ve Never Heard Of.
  • sklearn.metrics.matthews_corrcoef

如何处理机器学习中数据不平衡的分类问题

发表于 2022-03-01 | 分类于 Data Sciences |
字数统计: 1.1k | 阅读时长 ≈ 4

数据不平衡的分类问题

机器学习中数据不平衡的分类问题很常见,如医学中的疾病诊断,患病的数据比例通常小于正常的;还有欺诈识别,垃圾邮件检测,异常值的检测等。而极端的数据不平衡通常会影响模型预测的准确性和泛化性能。

这里介绍几种处理不平衡数据的计算方法:

  • Oversample and downsample
  • Generating synthetic data, eg. SMOTE, ADASYN
  • GAN

方法

1. oversample and downsample

一种简单直接的方法是随机重采样 (randomly resample),包括oversample和downsample。Oversample 即对少数组别重复取样,downsample 即从多数类中删除示例。但是,同时要注意Oversample可能导致某些模型过度拟合。downsample可能导致丢失对模型非常宝贵的信息。

image-20220301223756926

可以利用python中imbalanced-learn package实现,如

阅读全文 »

220204 | 文献摘要

发表于 2022-02-04 | 分类于 literature |
字数统计: 352 | 阅读时长 ≈ 1

Nat. M.L. | 基于条件变换器、知识提炼和强化学习的多约束分子生成

题目:Multi-constraint molecular generation based on conditional transformer, knowledge distillation and reinforcement learning

杂志:Nature Machine Intelligence

IF: 15

时间:18 October 2021

链接:https://www.nature.com/articles/s42256-021-00403-1

摘要

基于机器学习的生成模型可以从头开始生成具有理想的生理化学和药理学特性的新分子。许多优秀的生成模型已经被提出,但分子生成任务中的多目标优化对于大多数现有的模型来说仍然相当具有挑战性。在此,我们提出了多约束分子生成(multi-constraint molecular generation, MCMG)方法,通过知识提炼将条件转化器和强化学习算法结合起来,可以满足多种约束。通过有效地学习并将结构-属性关系纳入一个有偏见的生成过程,条件转化器被用来训练一个分子生成模型。然后采用知识蒸提炼型来降低模型的复杂性,以便通过强化学习有效地进行微调,提高生成分子的结构多样性。正如一组综合基准所证明的那样,MCMG是一种非常有效的方法,可以穿越庞大而复杂的化学空间,寻找满足多种属性约束的新型化合物。

阅读全文 »

220203|文献摘要

发表于 2022-02-03 | 分类于 literature |
字数统计: 1k | 阅读时长 ≈ 3

Nat. M.L. | 将多组学数据与图卷积网络整合以识别新的癌症基因及其相关的分子机制

题目:Integration of multiomics data with graph convolutional networks to identify new cancer genes and their associated molecular mechanisms

杂志:Nature Machine Intelligence

IF: 15

时间:12 April 2021

链接:https://www.nature.com/articles/s42256-021-00325-y

摘要

随着可用的高通量分子数据的增加,也为识别癌症基因带来了计算上的挑战。遗传和非遗传原因都有可能造成肿瘤的发生,这就需要开发预测模型来有效地整合不同的数据模式,同时具有可解释性。我们介绍了EMOGI,这是一种基于图卷积网络的可解释的机器学习方法,其通过结合多组学的泛癌症数据来预测癌症基因,如突变、拷贝数变化、DNA甲基化和基因表达,蛋白质-蛋白质相互作用(PPI) 网络等。在不同的PPI网络和数据集中,EMOGI总体来说比其他方法更准确。我们使用分层相关性传播,根据基因的分类是由相互作用组还是由任何一个全向性水平驱动,对基因进行分层,并确定PPI网络的重要模块。我们提出了165个新的癌症基因,这些基因不一定有反复的改变,但与已知的癌症基因有相互作用。而且我们发现,这些基因与功能缺失筛查中的基本基因相对应。我们相信,我们的方法可以为精准肿瘤学开辟新的途径,并可应用于预测癌症的生物标志物。

image-20220203092107638

EMOGI框架的示意图。a, 数据收集和串联。计算16个TCGA肿瘤类型的所有基因的平均突变率、CNAs、DNA甲基化和基因表达变化,并在一个早期整合方案中进行连接。然后将得到的特征矩阵与PPI网络和一小部分高置信度的癌症/非癌症基因相结合,形成一个网络,其中节点对应于基因,边对应于它们之间已知的相互作用。每个节点/基因都有一个多维的特征向量(b,输入层)。

b,在EMOGI模型训练期间,特征通过连续的图卷积层进行转化(见方法),考虑到越来越大的邻域。输出层根据基因的输出概率将其分类为预测的癌症基因和非癌症基因。

c, 使用LRP(见方法)提取每个基因分类的最重要的特征(包括不同癌症类型的全能性水平和相互作用伙伴)。随后根据基因的特征贡献进行聚类,每个基因的相互作用贡献被用来检测癌症中具有重要基因-基因联系的模块。

阅读全文 »

220202 | 文献摘要

发表于 2022-02-02 | 分类于 literature |
字数统计: 840 | 阅读时长 ≈ 3

Nat. M.L. | 通过学习随机掩码来解释生物序列的神经网络

题目:Interpreting neural networks for biological sequences by learning stochastic masks

杂志:Nature Machine Intelligence

IF: 15

时间:25 January 2022

链接:https://www.nature.com/articles/s42256-021-00428-6

摘要

基于序列的神经网络可以从大型生物数据集中学习从而做出准确的预测,但模型的解释仍然具有挑战性。许多现有的特征归属方法是针对连续的而不是离散的输入模式而优化的,并孤立地评估单个特征的重要性,使它们不适合解释分子序列中的非线性相互作用。在这里,在计算机视觉和自然语言处理的工作基础上,我们开发了一种基于深度学习-扰频器网络(Scrambler networks)的方法,其中最重要的序列位置是通过学习输入掩码(input masks)确定的。扰频器学习预测特定位置的评分矩阵,其中不重要的核苷酸或残基通过提高其熵值而被扰乱。我们应用加扰频器来解释遗传变异的影响,发现顺式调控元素之间的非线性相互作用,解释蛋白质-蛋白质相互作用的结合特异性,并确定从头设计的蛋白质的结构决定因素。我们表明,扰频器能够在大型数据集上进行有效的归因,并产生高质量的解释,往往优于最先进的方法。

image-20220202083212293

阅读全文 »
12…25

六六

Seize the day! Collect the moment! Share the memory!

123 日志
5 分类
51 标签
RSS
0%
© 2022 六六 | Site words total count: 78.2k
博客全站共78.2k字