写点什么

实用机器学习笔记六:数据清理

作者:打工人!
  • 2021 年 12 月 07 日
  • 本文字数:617 字

    阅读完需:约 2 分钟

实用机器学习笔记六:数据清理

前言:

本文是个人在 B 站自学李沐老师的实用机器学习课程【斯坦福 2021 秋季中文同步】的学习笔记,感觉沐神讲解的非常棒 yyds。

数据处理流程:

数据处理流程

一般情况下在收集完数据之后,要对数据进行处理,因为数据里面有很多噪音。如果有很多噪音就要对其进行清理。如果没有噪音,但是数据不是训练模型所需要的格式的话,也要对其进行格式转换。噪音和格式问题都解决完之后,如果模型难以训练,可能就是数据特征不明显,可以对其进行特征工程处理。本文主要针对的的是数据清理。

数据错误类型:

  • 非正常分布:一些样本的数据不在正常的分布区间里面。

  • 规则冲突:一些数据不符合数据类型规则等

  • 模式冲突:违反语义、语法的限制

非正常分布:

下面这个图就可以看做是非正常分布,比如"SingleFamily"一部分中间有空格,我们在处理的时候就需要把空格去掉归属到最大部分。

下面是一个箱型图,上面的离散的点是一些不符合数据分布的点。


规则检测:

以下两个概念都来自于数据库。

  • 功能性依赖:也就是一个值 x 决定一个唯一值 y。比如一个邮编对应唯一一个城市。

  • 一阶逻辑表达式:指定一些简单的规则。比如 id 值唯一,某列值非空等

模式检测:

  • 语言模式:语言一致,数据类型转换等

  • 语义模式:使用图谱技术来确定数据的异常,或者基于规则来指定知识图谱

数据清洗工具:

现在有很多数据清洗工具,具有图形化界面,以上介绍的各种规则可以使用工具来处理。但是没有一种工具可以解决所有的清洗工作,可以使用不同的工具来多次清洗不同的类型的错误。

发布于: 17 小时前阅读数: 10
用户头像

打工人!

关注

打工人! 2019.11.10 加入

InfoQ年度最佳内容获得者。 InfoQ签约作者 本人打工人一枚,自动化和控制专业入坑人一枚。目前在研究深度强化学习(DRL)技术。准备入坑互联网小白一枚。喜欢了解科技前沿技术,喜欢拍照。

评论

发布
暂无评论
实用机器学习笔记六:数据清理