数据探索
0.1 导入工具包
0.2 读取数据
1 数据探索
1.1 变量识别
1.输入变量与输出变量
2.数据类型
字符型数据
数值型数据
3.连续型变量与类别型变量
连续型变量
类别型变量
0.3 查看数据
1.2 变量分析
1.单变量分析
连续型变量
统计数据的的中心分布趋势和变量的分布
Central Tendency
mean,median,mode,min,max
Measure of Dispersion
range,quartile,iqr,variance,standard Deviation,slewness and kurtosis
visualization Methods
histogram,box plot
类别型变量
柱状图
0.4 可视化数据分布
0.4.1 单变量分析
1.箱型图
3.直方图和 QQ 图
4.KDE 分布图
0.4.2 双变量分析
1.计算相关性系数
corr() 相关系数
train_corr['V0'].sort_values(ascending = True)
train_corr.nlargest(k,'target')['target'].index
2.画出相关性热力图
3.根据相关系数筛选特征变量
找出与 target 变量的相关系数大于 0.5 的特征
2.特征工程
2.1 特征工程的重要性
特征工程的处理流程为首先去掉无用特征,接着去除冗余特征,如共线特征。并利用存在的特征、转换特征、内容中的特征生成新特征,然后对特征进行转换(数值化、类别转换、归一化等),最后对特征进行处理(异常值、最大值、最小值、缺失值等)
2.2 数据预处理和特征处理
2.2.1 数据预处理
数据采集
数据清洗
数据采样
2.2.2 特征处理
1.标准化
2.区间缩放法
3.归一化
4.定量特征二值化
5.定性特征哑变量
处理高基数特征的方法
1.One-Hot 编码
数据展开后,内存消耗大,线性模型可以更好的吸收类别信息。
2.Label 编码
3.Count 编码(频率编码)
4.nan 编码
5.expansion 编码
6.consolidation 编码
7.Mean-target 编码
评论