数据预处理和特征工程 - 数据预处理 - 数据无量纲化 & 缺失值
数据挖掘的五大流程:
1. 获取数据
2. 数据预处理
数据预处理是从数据中检测,纠正或删除损坏,不准确或不适用于模型的记录的过程 可能面对的问题有:数据类型不同,比如有的是文字,有的是数字,有的含时间序列,有的连续,有的间断。也可能,数据的质量不行,有噪声,有异常,有缺失,数据出错,量纲不一,有重复,数据是偏态,数据量太大或太小 数据预处理的目的:让数据适应模型,匹配模型的需求
3. 特征工程
特征工程是将原始数据转换为更能代表预测模型的潜在问题的特征的过程,可以通过挑选最相关的特征,提取特征以及创造特征来实现。其中创造特征又经常以降维算法的方式实现。
可能面对的问题有:特征之间有相关性,特征和标签无关,特征太多或太小,或者干脆就无法表现出应有的数据现象或无法展示数据的真实面貌 特征工程的目的:降低计算成本,提升模型上限
4. 建模,测试模型并预测出结果
5. 上线,验证模型效果
数据无量纲化
在机器学习算法实践中,我们往往有着将不同规格的数据转换到同一规格,或不同分布的数据转换到某个特定分布的需求,这种需求统称为将数据“无量纲化”。
数据的无量纲化可以是线性的,也可以是非线性的。线性的无量纲化包括中心化(Zero-centered 或者 Mean-subtraction)处理和缩放处理(Scale)。中心化的本质是让所有记录减去一个固定值,即让数据样本数据平移到某个位置。缩放的本质是通过除以一个固定值,将数据固定在某个范围之中,取对数也算是一种缩放处理。
可以认为归一化和标准化都是无量纲化的方法
数据的无量纲化是对于特征来说的,因此 fit 接口只能导入至少二维数组
归一化
当数据(x)按照最小值中心化后,再按极差(最大值 - 最小值)缩放,数据移动了最小值个单位,并且会被收敛到之间,而这个过程,就叫做数据归一化(Normalization,又称 Min-Max Scaling),即
实际上收敛区间我们可以自己指定
Normalization 是归一化,不是正则化,真正的正则化是 regularization,不是数据预处理的一种手段。
sklearn 中对应归一化的方法为 MinMaxScaler
当 X 中的特征数量非常多的时候,fit 会报错并表示,数据量太大了,计算不了。此时使用 partial_fit 作为训练接口
使用 numpy 实现归一化
标准化
当数据 X 按均值中心化后,再按标准差缩放,如果原数据服从正态分布,那么新数据就会服从为均值为 0,方差为 1 的正态分布(即标准正态分布),而这个过程,就叫做数据标准化(Standardization,又称 Z-score normalization),即
在 sklearn 中对应方法为 StandardScaler
对于 StandardScaler 和 MinMaxScaler 来说,空值 NaN 会被当做是缺失值,在fit 的时候忽略,在 transform 的时候保持缺失 NaN 的状态显示。
更多无量纲化方法
缺失值
其实在随机森林章节里,我们提到过一些
用 pandas 填补
决策树和朴素贝叶斯可以用文字数据,因为只是算概率
视频作者:菜菜TsaiTsai链接:【技术干货】菜菜的机器学习sklearn【全85集】Python进阶_哔哩哔哩_bilibili
版权声明: 本文为 InfoQ 作者【烧灯续昼2002】的原创文章。
原文链接:【http://xie.infoq.cn/article/2ff39beb0fbfc6f8b9e8d36ac】。
本文遵守【CC-BY 4.0】协议,转载请保留原文出处及本版权声明。
评论