多标签分类法

多标签分类（Multi-label Classification）

二分类问题是机器学习中最常遇到的问题，有时候我们也会遇到多标签分类（Multi-label Classification）的处理。首先什么是多标签分类，举个例子，比如一部电影的分类可以同时属于“动作类”，也可以是“喜剧类”，类别标签不是相互排斥的。另一种有时会和多标签分类混淆的分类问题——多类别分类（Multi-class Classification），类别标签是相互排斥的，如水果的分类，水果的类别有葡萄，苹果,香蕉等，但一种水果不可能即是葡萄又是苹果。

多标签分类方法

多标签分类的处理方法常见的有以下几种：

Ref1

首先我们构建一个多标签示例数据（Fig. A）, χi ∈ x 是一个训练实例，

这里 L 是一个类标签的有限集，m>1。

1. Binary relevance (BR)

第一种方法是Binary relevance (BR) （Fig. B），即将具有 L 个标签的数据集划分为 L 个二元分类问题。然后以二分类的方法处理。但是这种方法的一个不足是，没有考虑到多标签间的相关性。

2. Classifier Chain (CC)

第二种方法是Classifier Chain (CC) （Fig. C），即将L个二元分类器链接成一个“链”，使得一个分类器的输出预测作为所有后续分类器的附加输入，克服了不考虑标签之间依赖关系的缺点，并捕获了标签之间可能的依赖关系。

3. Ensemble Classifier Chains (ECC)

第三种方法Ensemble Classifier Chains (ECC)（Fig. D）是在CC基础上提出来的，考虑到了“链”的顺序，通过多数投票聚合了多个具有不同顺序的链，从而可以进一步提升分类器的性能。

4. Label Powerset (LP)

第四种方法是Label Powerset (LP)（Fig. E），将多标签问题转换为单标签多类问题，即在训练数据中找到的所有唯一标签组合上进行训练。

5. Random Label Space Partitioning with Label Powerset（RD）

第五种方法Random Label Space Partitioning with Label Powerset（RD）（Fig. F）是在LP基础上延伸得到的。其将标签空间划分为大小为 k 的分区，每个分区训练一个 LP 分类器，并通过聚合所有 LP 分类器的结果来预测数据。

多标签分类 （Multi-label Classification）