实用机器学习笔记六:数据清理
前言:
本文是个人在 B 站自学李沐老师的实用机器学习课程【斯坦福 2021 秋季中文同步】的学习笔记,感觉沐神讲解的非常棒 yyds。
数据处理流程:
数据处理流程
一般情况下在收集完数据之后,要对数据进行处理,因为数据里面有很多噪音。如果有很多噪音就要对其进行清理。如果没有噪音,但是数据不是训练模型所需要的格式的话,也要对其进行格式转换。噪音和格式问题都解决完之后,如果模型难以训练,可能就是数据特征不明显,可以对其进行特征工程处理。本文主要针对的的是数据清理。
数据错误类型:
非正常分布:一些样本的数据不在正常的分布区间里面。
规则冲突:一些数据不符合数据类型规则等
模式冲突:违反语义、语法的限制
非正常分布:
下面这个图就可以看做是非正常分布,比如"SingleFamily"一部分中间有空格,我们在处理的时候就需要把空格去掉归属到最大部分。
下面是一个箱型图,上面的离散的点是一些不符合数据分布的点。
规则检测:
以下两个概念都来自于数据库。
功能性依赖:也就是一个值 x 决定一个唯一值 y。比如一个邮编对应唯一一个城市。
一阶逻辑表达式:指定一些简单的规则。比如 id 值唯一,某列值非空等
模式检测:
语言模式:语言一致,数据类型转换等
语义模式:使用图谱技术来确定数据的异常,或者基于规则来指定知识图谱
数据清洗工具:
现在有很多数据清洗工具,具有图形化界面,以上介绍的各种规则可以使用工具来处理。但是没有一种工具可以解决所有的清洗工作,可以使用不同的工具来多次清洗不同的类型的错误。
版权声明: 本文为 InfoQ 作者【打工人!】的原创文章。
原文链接:【http://xie.infoq.cn/article/4e1c4d16b1b27cda01a6155f8】。文章转载请联系作者。
评论