实用机器学习笔记四:数据标注

前言:
本文是个人在 B 站自学李沐老师的实用机器学习课程【斯坦福 2021 秋季中文同步】的学习笔记,感觉沐神讲解的非常棒 yyds。
数据标注思维导图:

半监督学习:
适用场景:
主要适用于数据集中只有小部分有数据标注,很大一部分没有数据标注。比如在淘宝推荐场景中,只有少部分用户浏览并购买了商品,但是大部分用户只是浏览了商品,并没有做其他任何事,也就是相当于只有少部分数据有反馈有标注,其他都没有标注。
想要把标注过的数据和未被标注过的数据一起使用来训练模型,这就是半监督学习,但是使用的前提是有一些假设:
连续性假设:如果两个数据具有相似的特征,假设这两个数据有相同的标注
聚簇假设:数据可以分为很多簇,堆,同一个簇里面的数据具有相同的标注
流形假设:数据真实的维度可能比显现出来的维度低,通过降维来处理。
自学习算法:
半监督学习方法的一种
学习步骤:

注意:被整合到原先标注数据集中的伪标注数据需要是置信数据,简单点说就是:模型预测的概率超过置信度的才保留下来。
提高效率:
可以使用复杂度比较高的模型,或者是多个模型融合来提高效率
主动学习:
适用场景:把模型预测最不确定的单独拿出来,人工干预来标注数据。简单说就是,模型认为每一个分类都有可能的预测结果对应的样本拿出来,人工干预标注。
因此我们可以看出主动学习和自学习算法的不同就是处理伪标注数据的方式不同
提升效率和质量:
可以使用复杂的模型
同时训练多个模型,然后多个模型投票,大部分模型认为该样本比较难预测,就认为该样本需要人工干预标注。
自学习+主动学习:
通常情况,自学习和主动学习是一起使用,流程图如下:

弱监督学习:
适用场景:数据标注不够,资金又不充足,就可以使用弱监督学习方法(比如人们根据场景,总结出来的标注规律,然后使用启发式算法或者数据编程的方式来生成有噪音的标注,但是这些标注又足以支撑训练出比较好的模型)。
版权声明: 本文为 InfoQ 作者【打工人!】的原创文章。
原文链接:【http://xie.infoq.cn/article/019b54c1ea5aff5fcf2095eae】。文章转载请联系作者。
评论