二手车价格预测第十三名方案总结
代码开源链接:GitHub - wujiekd/Predicting-used-car-prices: 阿里天池与Datawhale联合举办二手车价格预测比赛:优胜奖方案代码总结
比赛介绍
赛题以二手车市场为背景,要求选手预测二手汽车的交易价格,这是一个典型的回归问题。其他具体流程可以看比赛官网。
数据处理
1、box-cox 变换目标值“price”,解决长尾分布。
2、删除与目标值无关的列,例如“SaleID”,“name”。这里可以挖掘一下“name”的频度作为新的特征。
3、异常点处理,删除训练集特有的数据,例如删除“seller”==1 的值。
4、缺失值处理,分类特征填充众数,连续特征填充平均值。
5、其他特别处理,把取值无变化的列删掉。
6、异常值处理,按照题目要求“power”位于 0~600,因此把“power”>600 的值截断至 600,把"notRepairedDamage"的非数值的值替换为 np.nan,让模型自行处理。
特征工程
1、时间地区类从“regDate”,“creatDate”可以获得年、月、日等一系列的新特征,然后做差可以获得使用年长和使用天数这些新特征。
“regionCode”没有保留。因为尝试了一系列方法,并且发现了可能会泄漏“price”,因此最终没保留该特征。
2、分类特征对可分类的连续特征进行分桶,kilometer 是已经分桶了。然后对"power"和"model"进行了分桶。
使用分类特征“brand”、“model”、“kilometer”、“bodyType”、“fuelType”与“price”、“days”、“power”进行特征交叉。交叉主要获得的是后者的总数、方差、最大值、最小值、平均数、众数、峰度等等
这里可以获得非常多的新特征,挑选的时候,直接使用 lightgbm 帮我们去选择特征,一组组的放进去,最终保留了以下特征。(注意:这里使用 1/4 的训练集进行挑选可以帮助我们更快的锁定真正 Work 的特征)
3、连续特征使用了置信度排名靠前的匿名特征“v_0”、“v_3”与“price”进行交叉,测试方法以上述一样,效果并不理想。因为都是匿名特征,比较训练集和测试集分布,分析完基本没什么问题,并且它们在 lightgbm 的输出的重要性都是非常高的,所以先暂且全部保留。
4、补充特征工程主要是对输出重要度非常高的特征进行处理特征工程一期:对 14 个匿名特征使用乘法处理得到 14*14 个特征
使用 sklearn 的自动特征选择帮我们去筛选,大概运行了半天的时间。大致方法如下:
最终筛选得到:
特征工程二期:对 14 个匿名特征使用加法处理得到 14*14 个特征这次不选择使用自动特征选择了,因为运行实在太慢了,笔记本耗不起。使用的方法是删除相关性高的变量,把要删除的特征记录下来大致方法如下:(剔除相关度>0.95 的)
最终获得的应该删除的特征为:
特征工程三、四期:这两期的效果不明显,为了不让特征冗余,所以选择不添加这两期的特征,具体的操作可以在 feature 处理的代码中看到。
5、神经网络的特征工程补充说明以上特征工程处理都是针对于树模型来进行的,接下来,简单说明神经网络的数据预处理。各位都知道由于 NN 的不可解释性,可以生成大量的我们所不清楚的特征,因此我们对于 NN 的数据预处理只要简单处理异常值以及缺失值。
大部分的方法都包含在以上针对树模型数据处理方法中,重点讲述几个不同点:在对于“notRepairedDamage”的编码处理,对于二分类的缺失值,往往取其中间值。在对于其他缺失值的填充,在测试了效果后,发现填充众数的效果比平均数更好,因此均填充众数。
选择的模型
本次比赛,我选择的是 lightgbm+catboost+neural network。本来也想使用 XGBoost 的,不过因为它需要使用二阶导,因此目标函数没有 MAE,并且用于逼近的一些自定义函数效果也不理想,因此没有选择使用它。
经过上述的数据预处理以及特征工程:树模型的输入有 83 个特征;神经网络的输入有 29 个特征。
1、lightgbm 和 catboost:因为它们都是树模型,因此我同时对这两个模型进行分析
第一:lgb 和 cab 的训练收敛速度非常快,比同样参数的 xgb 快非常多。第二:它们可以处理缺失值,计算取值的增益,择优录取。第三:调整正则化系数,均使用正则化,防止过拟合。第四:降低学习率,获得更小 MAE 的验证集预测输出。第五:调整早停轮数,防止陷入过拟合或欠拟合。第六:均使用交叉验证,使用十折交叉验证,减小过拟合。其他参数设置无明显上分迹象,以代码为准,不一一阐述。
查看本文全部内容,欢迎访问天池技术圈官方地址:二手车价格预测第十三名方案总结_天池技术圈-阿里云天池
评论