首页 体育 教育 财经 社会 娱乐 军事 国内 科技 互联网 房产 国际 女人 汽车 游戏

数据集中存在错误标注怎么办? 置信学习帮你解决

2020-01-21

假如你从前运用过比如 CIFAR、MNIST、ImageNet 或 IMDB 之类的数据集,那么你或许会假定类标签是正确的。令人吃惊的是,ImageNet 中或许至少有 10 万个标签有问题。为什么咱们不早点找到它们?在海量数据会集描绘和发现标签过错的准则性办法十分具有挑战性,处理方案也很有限。

在这篇文章中,我谈论了一个新式的、准则性的结构,用于辨认标签过错、描绘标签噪声,并运用被称为相信学习的噪声标签进行学习,该结构是开源的 cleanlab Python 包。

cleanlab 是一个带有标签过错的机器学习和深度学习结构,和 PyTorch 相似。在 cleanlab 文档中了解更多信息。

cleanlab 加上 confidentlearning-reproduce repo 就能够重现 CL 论文中的成果。

2012 年 ILSVRC ImageNet 练习会集经过相信学习确认的前 32 个标签问题。标签过错用赤色框表明,绿色表明本体论问题,蓝色表明多标签图画

上图显现了运用相信学习发现的 2012 ILSVRC ImageNet 练习会集的标签过错的比如。为了便于解说,咱们将运用 CL 在 ImageNet 中发现的标签问题分为三类:

多标签图画:在图画中有多个标签

本体论问题:包括“是”或 “有”两种联系,在这些情况下,数据集应该包括其间一类

标签过错:数据集其他类的标签比给定的类标签更适合于某个示例

运用相信学习,咱们能够运用任何适宜的模型在任何数据会集找到标签过错。下面是常见数据会集的其他三个实践示例。

在 Amazon 谈论中存在的标签过错的比如,运用相信学习来辨认不同的数据方式和模型

    什么是相信学习?

相信学习已成为监督学习和弱监督的一个子范畴,能够被用于:

描绘标签噪声

查找标签过错

学习噪声标签

发现本体论问题

CL 根据噪声数据剪枝的原理,经过计数对噪声进行评价,并对实例进行排序以进行相信练习。在这儿,咱们在 Angluin 和 Laird 分类噪声的假定基础上,将 CL 泛化到直接估量给定噪声标签和无噪声标签之间的联合散布。

带噪标签与不带噪标签相信联合与估量联合散布的相信学习进程及实例,其间,y~ 表明调查到的噪声标签,y* 表明潜在的未损坏标签

从上图能够看出,CL 需求两个输入:

样本外猜测概率

噪声标签

出于弱监督的意图,CL 包括三个进程:

估量给定噪声标签和潜在未损坏标签的联合散布,以充沛描绘类条件标签噪声

查找并删去带有标签问题的噪音示例

去除练习差错,经过估量潜在先验从头加权实例

    相信学习的长处

与大多数机器学习办法不同,相信学习不需求超参数。咱们运用穿插验证从样本中取得猜测概率。相信学习还有许多其他长处:

直接估量噪声和真标签的联合散布

适用于多类数据集

查找标签过错

对错迭代的

在理论上是合理的

不假定标签噪声是随机均匀的

只需求猜测概率和噪声标签

不需求任何实在的标签

天然扩展到多标签数据集

作为 cleanlab Python 包,它是免费、开源的,用于描绘、查找和学习标签过错

    相信学习的准则

CL 是在处理噪音标签的文献中拟定的准则之上建立起来的:

剪枝以查找标签过错。例如,经过丢失重加权运用软剪枝,以防止迭代重符号的收敛圈套。

对洁净数据进行计算练习,防止在不完全猜测概率的情况下从头加权丢失,然后防止学习模型权重中的过错传达。

对练习期间运用的示例进行排序,以答应运用不规范概率或 SVM 决议计划鸿沟间隔进行学习。

    相信学习的理论发现

有关 CL 算法、理论和证明的全部内容,请阅览这篇论文。这儿,我总结一下论文的首要观念。

理论上,论文给出了 CL精确地发现标签过错并一致地估量噪声和实在标签的联合散布的实践条件。咱们的条件答应每个比如和每个类的猜测概率中有过错呈现。

    相信学习是怎么作业的?

为了了解 CL 是怎么作业的,让咱们假定咱们有一个包括狗、狐狸和牛的图画的数据集。CL 经过估量噪声标签和真标签的联合散布来作业。

左:相信计数示例,这是一个不正常的联合估量;右:有三类数据的数据集的噪声标签和真标签的联合散布示例

持续咱们的示例,CL 计算 100 个符号为 dog 的图画,这些图画很或许归于 dog 类,如上图左边的 C 矩阵所示。CL 还计算了 56 幅高概率符号为 fox 的图画和 32 幅高概率符号为 cow 的图画。

你或许对它的数学进程比较猎奇,好吧,这个计数进程选用的是下面的公式:

相信联合方程

咱们鼓舞阅览论文原文来了解公式中的符号,这儿的中心思想是,当一个比如的猜测概率大于每个类的阈值时,咱们自傲地以为这个比如实践上归于该阈值的类。每个类的阈值是该类中示例的均匀猜测概率。这种阈值方式将 PU 学习中众所周知的鲁棒性成果推行到多类弱监督。

    运用标签噪声的联合散布查找标签问题

从上图右侧的矩阵中,估量标签问题:

将联合散布矩阵乘以示例数。让咱们假定咱们的数据会集有 100 个示例。所以,在上图中,有 10 个符号为 dog 的图画实践上是狐狸的图画。

将 10 张符号为 dog 的图片符号为标签问题,其间归于 fox 类的或许性最大。

对矩阵中的一切非对角项重复此操作。

留意:尽管这简化了本文中运用的办法,但抓住了实质。

    相信学习的实践运用

在高噪音和高稀少的情况下,均匀来说,CL 进步了 10% 以上高噪声学习水平缓 30% 以上的高稀少学习水平。

上表显现了 CIFAR-10 上带噪声标签的多类学习的 CL 与最新办法的比较。在高稀少性和 40%、70% 的标签噪声的情况下,CL 的体现优于 Google 体现最好的 MentorNet、Co-Teaching 和 Facebook 研究院的 Mix-up,功能超越它们 30%。在运用相信学习之前,对这一基准的改进要小得多。

稀少性归纳了这样一个概念,即实践国际中的数据集,如 ImageNet,有一些类不太或许被过错地符号为其他类,例如 p ~ 0 in Q。如上表中杰出显现的单元格所示,与 Mixup、MentorNet、SCE-loss 和 Co-Teaching 等最新办法比较,CL 明显增强了对稀少性的鲁棒性。这种鲁棒性来自于直接建模 Q,即噪声和实在标签的联合散布。

CL 清洗 ImageNet 进步 ResNet 测验精度

在上图中,每种办法的直线上的每个点,从左到右,描绘了练习的精确性,去除了 20%、40%…、100% 的估量标签过错。黑色虚线用一切比如描绘了练习时的精确性。当移除少于 100k 个练习示例时,运用 CL 在清洗过的 ImageNet 练习集上练习,调查 ResNet 验证精度的进步。当超越 100k 个练习实例被移除时,调查运用 CL 相对于随机移除的改进,如赤色虚线所示。

在增加标签噪声的 CIFAR 中标签噪声的杰出表征

上图显现了 CIFAR 中标签噪声联合散布的 CL 估量,标签噪声增加了 40%。调查中的 CL 估量与中的实在散布有多挨近,以及中矩阵中每个项的肯定差的低差错。概率被扩大 100 倍。

ImageNet 本体论问题中类命名问题的主动发现

CL 经过直接估量标签噪声的联合散布,主动发现数据会集类的本体论问题。在上表中,咱们显现了在咱们估量单类数据集 ImageNet 的标签噪声联合散布时最大的违背对角线。每行都列出了噪声标签、真标签、图画 id、计数和联合概率。由于这些对错对角的,所以噪声类和真类有必要是不同的,但是在第 7 行中,咱们看到 ImageNet 实践上有两个不同的类,它们都被称为 maillot。

    最终的主意

论文的理论和试验成果强调了相信学习的实用性,例如辨认 ImageNet 和 CIFAR 中的许多标签问题,并经过在清洗过的数据集上进行练习来进步规范 ResNet 的功能。相信学习促进人们需求进一步了解数据集标签中的不确认性估量、清洗练习集和测验集的办法以及辨认数据会集本体论问题和标签问题的办法。

via:https://l7.curtisnorthcutt.com/confident-learning

/ 更多阅览 /

点击  阅览原文 ,检查:猫脸要害点检测大赛:三种办法,轻松完成猫脸辨认!

热门文章

随机推荐

推荐文章