手把手带你打一场时间序列实战—跑通 baseline
赛题介绍:
赛题官网:MARS开发者生态社区 (marsbigdata.com)。首先进入官网进行注册登录,进行报名参赛。同时也可以看到”新能源“赛道【电动汽车充电站充电量预测】的赛题的具体详情,详情中对数据的字段进行了介绍以及提供了下载数据集网址。
数据介绍:
本赛题提供的数据集包含三张数据表。
其中,power_forecast_history.csv 为站点运营数据,power.csv 为站点充电量数据,stub_info.csv 为站点静态数据,训练集为历史一年的数据,测试集为未来一周的数据。
评价指标
评价指标:
解题思路:
本题任务:预测多个充电站未来一周每天的充电量(以天为单位)。属于典型的回归问题,同时也是时间序列预测问题。输入数据为历史站点运营数据、站点充电量数据和站点静态数据。针对这类时间序列预测问题方法比较灵活,传统的时序模型、机器学习、深度学习方法均可以使用。
1、统计策略:使用最近时刻的结果进行均值、中位数、时间衰减等方式直接统计得到未来结果,这种方式比较简单,可以快速得到结果;
2、时序模型:比较常用的方法有指数平滑法、灰色预测模型、ARIMA 预测、季节 Sarima 模型、VAR 模型等,仅能刻画序列信息,无法加入其他信息进行训练,比如离散类特征;
3、机器学习模型:常见的为 lightgbm、xgboost、catboost,需要构建大量时序相关特征;
4、深度学习模型:常见为 rnn、lstm、cnn、transformer 这类模型,可以直接输入序列信息,不需要构建大量的人工特征;
在这里 DataWhale 组织提供了 baseline,选择使用机器学习方法,在解决机器学习问题时,一般会遵循以下流程:
思考 1:这里为什么选择机器学习算法?为什么不考虑深度学习?
在许多机器学习问题中,特征工程的重要性不容忽视。如果特征工程能够充分捕捉数据的关键特征,那么机器学习算法也能够表现很好。深度学习在某种程度上可以自动学习特征,但对于特定问题,手动设计特征可能会更有效。
思考 2:这里从逻辑回归和决策树中选择,哪一个模型更加合适?
决策树能够处理非线性关系,并且可以自动捕获特征之间的交互作用。
它可以生成可解释的规则,有助于理解模型如何做出决策。
决策树能够处理不同类型的特征,包括分类和数值型。
Baseline:
快速跑通 baseline:基于百度 AI Studio,将本教程 Baseline 部署在线上平台,可一键 fork 运行代码,提交结果,看到成绩。
SEED新能源赛道:电动汽车充电站充电需求预测 - 飞桨AI Studio星河社区 (baidu.com)
注册账号,点击 fork 就可以把项目 fork 到自己的账号下,如下所示:
点击进入,初始化环境,选择 cpu 的硬件配置即可,然后就进入到程序运行界面,和 jupyter 类似,如下图:
运行完程序后,会生成 result.csv。如下图所示:
至此,baseline 运行结束。
版权声明: 本文为 InfoQ 作者【打工人!】的原创文章。
原文链接:【http://xie.infoq.cn/article/c233e725b5b05e274a60feb88】。文章转载请联系作者。
评论