多标签分类 (Multi-label Classification)
二分类问题是机器学习中最常遇到的问题,有时候我们也会遇到多标签分类(Multi-label Classification)的处理。首先什么是多标签分类,举个例子,比如一部电影的分类可以同时属于“动作类”,也可以是“喜剧类”,类别标签不是相互排斥的。另一种有时会和多标签分类混淆的分类问题——多类别分类(Multi-class Classification),类别标签是相互排斥的,如水果的分类,水果的类别有葡萄,苹果,香蕉等,但一种水果不可能即是葡萄又是苹果。
多标签分类方法
多标签分类的处理方法常见的有以下几种:
Ref1
首先我们构建一个多标签示例数据(Fig. A), χi ∈ x 是一个训练实例,
这里 L 是一个类标签的有限集,m>1。
1. Binary relevance (BR)
第一种方法是Binary relevance (BR) (Fig. B),即将具有 L 个标签的数据集划分为 L 个二元分类问题。然后以二分类的方法处理。但是这种方法的一个不足是,没有考虑到多标签间的相关性。
2. Classifier Chain (CC)
第二种方法是Classifier Chain (CC) (Fig. C),即将L个二元分类器链接成一个“链”,使得一个分类器的输出预测作为所有后续分类器的附加输入,克服了不考虑标签之间依赖关系的缺点,并捕获了标签之间可能的依赖关系。
3. Ensemble Classifier Chains (ECC)
第三种方法Ensemble Classifier Chains (ECC)(Fig. D)是在CC基础上提出来的,考虑到了“链”的顺序,通过多数投票聚合了多个具有不同顺序的链,从而可以进一步提升分类器的性能。
4. Label Powerset (LP)
第四种方法是Label Powerset (LP)(Fig. E),将多标签问题转换为单标签多类问题,即在训练数据中找到的所有唯一标签组合上进行训练。
5. Random Label Space Partitioning with Label Powerset(RD)
第五种方法Random Label Space Partitioning with Label Powerset(RD)(Fig. F)是在LP基础上延伸得到的。其将标签空间划分为大小为 k 的分区,每个分区训练一个 LP 分类器,并通过聚合所有 LP 分类器的结果来预测数据。