大航杯智造扬中电力 AI 大赛 RANK6 思路总结
关联比赛: [智造扬中]大航杯电力AI大赛
一、赛题介绍
本次比赛期望参赛者基于给定的扬中市高新区的 1000 多家企业的历史用电量数据(表 1)精准预测下一个月的每日总用电量。参赛者可以参考其他外部数据,比如天气、经济数据,但是使用外部数据的时间范围必须在预测时间之前获取的数据。
表 1. 扬中市高新区的 1000 多家企业的用电量
二、分析思路
单个用户的用电特征几乎没有规律可言,但在研究大量用户的负荷时,其随机性相互抵消,则呈现出很强的规律性。不过,地区级电力系统具有容量小、波动性大的特点,一般存在若干负荷容量相对较大的用户,其用电行为极大影响了总负荷。因此,我们首先对用户的负荷进行 K-Means 聚类分析。当分类数 K=4,分类结果为 1416、175、174 和其他;当分类数 K=2,分类结果为 1416 和其他。这里我们分两类进行预测,1416 的用户体量大,约占全负荷的 1/4,且其发电规律与其他用户总和明显不同。
图 1.各用户总负荷百分比饼图,时间为 2015 年 1 月 1 月至 2016 年 1 月 8 月 31 日
在业务中接触到数据的数据质量往往较差,本次大奖赛所涉及到的负荷数据亦是如此。负荷预测中的异常数据一般分为两类:1)显著异常数据:零值、空值、连续定值、显著异常阶跃等;2)非显著阶跃、转供等。这里我们主要通过水平标记和垂直标记来识别异常小值和异常大值,即比较某个用户某天的负荷与其前、后两日的平均值或者前、后两周同一星期类型的平均值进行比较,并进行水平或垂直处理,即用相应的平均值进行代替。图 2 为清洗后的结果对比图,可以看出效果是非常明显的。
图 2. 数据清洗前后对比图
母线或地市电网的负荷预测,需要对大用户用电情况进行针对性措施:1)分析其用电特征;2)了解生产过程,收集用电计划;3)进行监视,分析异动;4)分析与统计其规律性。对于 1416 用户,其用电特征基本呈现稳步上升的特征,此外还存在较强的非计划性,尤其是 2016 年 8 月、9 月和 11 月。其负荷与节假日以及星期类型的关系不大。
而其他用户负荷总和与节假日、星期类型、气象等相关性较强。1)节假日:节日期间,负荷明显较低,这与企业的停产或减产有直接关系。2)星期类型:负荷存在明显的周循环,周四的平均负荷最高,而周日的平均负荷最低。3)气象:气象要素中的温度和湿度对于负荷的影响最为显著,由于比赛中提供的气象数据的限制,我们利用的是日最低气温。需要注意的是,业务中一般用的是日平均气温。气温与负荷一般为二次曲线的关系,即高温时,温度越高,负荷越大;低温时,温度越低,负荷越大;适宜气温,负荷较小。此外,其他用户负荷总和呈现大体上升的趋势。
图 3. 非节假日期间,温度与负荷之间的散点图,不同颜色代表不同的星期类型
三、算法模型
根据之前的分析结果,我们对 1416 和其他用户运用不同方法分别进行预测,最终预测结果为两者结果之和。对于 1416 用户,选取最近 30-60 日的数据进行线性趋势预测或 ARIMA,训练时间段应选取平稳时段,剧烈波动、缺省时段应剔除。其他用户负荷分节假日和非节假日进行预测,节假日采用“倍比法”,P1i/A1=P2i/A2,其中 A1 和 A2,分别代表本年和前年预测日前一个月非节假日的平均负荷,P1i 和 P2i 分别代表本年和前年同类型日的值,例如十一的第 2 天。非节假日采用 GBDT 进行预测,输入变量为星期类型、日最低气温、天数(2015 年 1 月 1 日为第 0 天)。
图 4. 1416 用户的实际与预测负荷;其他用户的实际和预测负荷
由于预测模型包括 GBDT、预测因子等存在很多参数,为了防止过拟合,我们采用交叉验证的方法。通过 4 轮的实验,即 1416 预测不变,调整其他用户总负荷,线下和线上的预测精度成正相关。
四、总结
1) 在实际业务中,数据的质量往往存在大量的问题,因此数据的治理方案是十分必要的,而这往往也是业务开展的基础。结合负荷本身具有的特点,日历天的划分和数据特征的选取也对预测准确率和模型的稳定性有很大影响;
2) 最终预测结果可以对多个单体算法的预测结果进行组合,可提高模型预测的准确率与稳定性;
3) 数加平台中模块化的算法,使得很多没有接触过大数据的用户也可以很容易的对大数据进行分析、处理,但美中不足的是算法模型相对较少,希望可以添加更多的算法模块。
联系人:林建设 linjianshe@eeechina.cn;王彦文 wangyanwen@eeechina.cn;卢月亮 luyueliang@eeechina.cn
查看更多内容,欢迎访问天池技术圈官方地址:大航杯智造扬中电力AI大赛RANK6思路总结_天池技术圈-阿里云天池
评论