Datawhale 零基础入门数据挖掘 -Task1 赛题理解
一、 赛题理解
Tip:此部分为零基础入门数据挖掘的 Task1 赛题理解 部分,为大家入门数据挖掘比赛提供一个基本的赛题入门讲解,欢迎后续大家多多交流。
赛题:零基础入门数据挖掘 - 二手车交易价格预测
1.1 学习目标
理解赛题数据和目标,清楚评分体系。
完成相应报名,下载数据和结果提交打卡(可提交示例结果),熟悉比赛流程
1.2 了解赛题
赛题概况
数据概况
预测指标
分析赛题
1.2.1 赛题概况
赛题以预测二手车的交易价格为任务,数据集报名后可见并可下载,该数据来自某交易平台的二手车交易记录,总数据量超过 40w,包含 31 列变量信息,其中 15 列为匿名变量。为了保证比赛的公平性,将会从中抽取 15 万条作为训练集,5 万条作为测试集 A,5 万条作为测试集 B,同时会对 name、model、brand 和 regionCode 等信息进行脱敏。
通过这道赛题来引导大家走进 AI 数据竞赛的世界,主要针对于于竞赛新人进行自我练 习、自我提高。
1.2.2 数据概况
一般而言,对于数据在比赛界面都有对应的数据概况介绍(匿名特征除外),说明列的性质特征。了解列的性质会有助于我们对于数据的理解和后续分析。 Tip:匿名特征,就是未告知数据列所属的性质的特征列。
train.csv
SaleID - 销售样本 ID
name - 汽车编码
regDate - 汽车注册时间
model - 车型编码
brand - 品牌
bodyType - 车身类型
fuelType - 燃油类型
gearbox - 变速箱
power - 汽车功率
kilometer - 汽车行驶公里
notRepairedDamage - 汽车有尚未修复的损坏
regionCode - 看车地区编码
seller - 销售方
offerType - 报价类型
creatDate - 广告发布时间
price - 汽车价格
v_0', 'v_1', 'v_2', 'v_3', 'v_4', 'v_5', 'v_6', 'v_7', 'v_8', 'v_9', 'v_10', 'v_11', 'v_12', 'v_13','v_14' 【匿名特征,包含 v0-14 在内 15 个匿名特征】
数字全都脱敏处理,都为 label encoding 形式,即数字形式
1.2.3 预测指标
本赛题的评价标准为 MAE(Mean Absolute Error):
一般问题评价指标说明:
什么是评估指标:
评估指标即是我们对于一个模型效果的数值型量化。(有点类似与对于一个商品评价打分,而这是针对于模型效果和理想效果之间的一个打分)
一般来说分类和回归问题的评价指标有如下一些形式:
分类算法常见的评估指标如下:
对于二类分类器/分类算法,评价指标主要有 accuracy, [Precision,Recall,F-score,Pr 曲线],ROC-AUC 曲线。
对于多类分类器/分类算法,评价指标主要有 accuracy, [宏平均和微平均,F-score]。
对于回归预测类常见的评估指标如下:
平均绝对误差(Mean Absolute Error,MAE),均方误差(Mean Squared Error,MSE),平均绝对百分误差(Mean Absolute Percentage Error,MAPE),均方根误差(Root Mean Squared Error), R2(R-Square)
1.2.4. 分析赛题
此题为传统的数据挖掘问题,通过数据科学以及机器学习深度学习的办法来进行建模得到结果。
此题是一个典型的回归问题。
主要应用 xgb、lgb、catboost,以及 pandas、numpy、matplotlib、seabon、sklearn、keras 等等数据挖掘常用库或者框架来进行数据挖掘任务。
通过 EDA 来挖掘数据的联系和自我熟悉数据。
1.3 代码示例
本部分为对于数据读取和指标评价的示例。
评论