天池云上智能降雨量预测总决赛 - 优胜奖 RIOFGROUP 队攻略分享
关联比赛: 阿里巴巴大数据智能云上编程大赛
总体感想:
参加此次天池云上智能降水量预测大赛,对于我们这个行业内的队伍是一种尝试,感觉收获很大。与平时行业内预报产品的研发不一样,此次比赛所用的数据和平台是全新的,要在阿里的 Pai、Studio 等云平台上搭建,最终不光是考验对预报的订正能力,还涉及到集合预报统计,数据分析、预报模型建立调优、Web 应用开发等,尝试将传统与新技术结合是一种最大的挑战。参加本次比赛,一开始我们是希望通过获取到传统的集合预报和实况,将平时工作中运用的一些技术,例如:EMOS、类卡曼自适应滤波、BMA 等方法搭建上去从而取得比较满意的结果,并不是说完全针对比赛想弄一套适合于它的东西,但是在加入到比赛中,发现很多想法需要适应变化,而且针对比赛应该有更富有技巧,因为比赛的场景更加的局限,可以在其中找到极致的最优,并不是说要象在现实预报技术中解决一个长时间的稳定性的预报问题。而这些方面是行业内选手未来会面对的问题,因为这些盲区也许会真正的孕育出一些颠覆行业的技术、思路和理念。
我们团队的成员是比较纯粹的气象专业人,对于预报技术、天气过程分析、数据深层本质的理解是优势,但是从数据集的纯数字特征上的挖掘,在受到天气物理机制思考影响下,会造成一些思维束缚。对于应用前端开发是我们的弱项,为此我们找了一个伙伴来弥补我们的不足,但是数据和应用的开发始终还是我们非常薄弱的环节,团队需要更进一步的提高对计算机开发角度对数据和应用开发的解决能力,同时也不放弃自己专业上面的特点。例如:我们的应用外观界面和功能的完成度可能不是很高,但是充分的展示了集合预报的特点,不确定性信息,概念产品,箱线图等,而在精细化预报的展现上,有很多的分量级降水的显示。从而让我们的应用倾重于行业用户和专业用户的需要,同时在面向社会公众需要方面也有展现。
赛事介绍:
参赛队伍将得到气象业务人员在预报中所广泛参考的多种格点降水预报(集合预报)的结果,需要选手综合考虑各种预报的误差规律,将各个预报的结果融合分析,得到资料覆盖区域(东经 118°~121°,北纬 28.5°~31.5°,也即杭州及周边区域)的未来 24 小时降水预报结果。
输入数据集合预报 50 个成员各自对未来 24 小时降水量的格点预报结果。每个成员的预测结果是由 61 * 61 矩阵构成。每 24 小时有 50 个 61 * 61 矩阵数据,每 50 个矩阵数据为一组。
输出数据未来 24 小时的格点降水量,也是一个 61 * 61 的矩阵。
测评指标 ETS 得分,ETS=(a-C)/((a+b+c)-C),其中 C=(a+b)(a+c)/(a+b+c+d),a,b,c,d 分别代表混淆矩阵中的 TP,FP,FN,TN.
解决方案:
科学问题:集合预报经过二十年左右的发展,已经是数值预报的主流,其诞生是为了解决数值预报误差的积分增长而造成的预报不确定性问题。集合预报后处理是目前中短期天气预报业务的重要技术,通过统计方法来对集合预报的成员或者均值进行订正处理,从而得到最优的预报结果。对于回归,无论是线性回归还是非线性回归,一元或是多元,都是经典的寻优方法。从人工智能角度来说,分类和回归是两大基本问题,所以对于预报订正的问题,在回归上得到了统一,但是针对于比赛,一个确定性的数据集,那么分类是取得更好的成绩的必然。
总体思路:在概率中寻找确定,多集合统计量融合取最优百分位,根据最优评分调参,寻找降雨形态进行优化调整。
算法构建:多种统计量融合产品与观测数据曲线的重合度更高,融合产品在量级分布上更接近实况。计算各种集合统计量的 TS 评分,对于不同量级的降水预报,TS 评分最高的统计量不同,但融合产品的 TS 评分始终位于第二或第三位,表现出较好的稳定性。融合产品在短期时效内优势明显,但到中期,由于成员预报差异较大,因此对强降水有较高的空报率,需进一步订正。
数据分类:设计多种统计量融合技术。具体每个格点计算规则如下(按照先后优先顺序):
(1)如果集合最大值大于或等于 100mm,则融合值等于集合最大值;
(2)如果集合 %90 分位值大于或等于 50mm,则融合值等于 %90 分位值;
(3)如果集合 %75 分位值大于或等于 25mm,则融合值等于 %75 分位值;
(4)如果集合中位值大于或等于 10mm,则融合值等于集合中位值;
(5)在上述条件都不满足的情况下,融合值等于集合 %10 分位值。
模型实现:
最优百分位产品算法(优化改进)
对于任意格点[i,j]:
FP[i,j]=Quntile<A>x(s,f)</A>
x(s,f)分位值不固定,依据训练集预报评估来选取最优值,是季节 s 和预报时效 f 的函数。</P>
<P>由固定百分位值{0,10,50,75,90,100}变为动态百分位值;
根据训练集样本预报和观测,计算 21 个百分位值的 TS 评分{0,5,10,15,……,85,90,95,100};
针对不同量级确定最优百分位值,最后融合;
样本分类和回归:
模型调优,模型在训练集上存在过拟合问题,由于没有完成测试集 ETS 的开发,测试集所能取得的结果具有一定的不可预知性;动态调整分类参数,仅基于训练集计算 ETS 评分以进行调优。
应用开发:
我们的应用意图充分地将集合预报不确定性信息展示给专业用户,并且提供给公众局部区域分量级的精细化预报服务。界面上力图主题清晰,功能简约,内容精细。
应用概览
技术亮点
自定义箱线图(端须图)组件,展示一个特定位置的降水概率区间随时间的变化。
一点心得:
要认真了解比赛的赛制说明,获取数据,接触数加平台、PAI 平台后,通过官方帮助文档和技术圈了解相关的模型使用,组件及参数配置,在后期对于比赛经验的缺乏和应用开发的不足造成了一些困难,没有把精力更好的放在模型调优上。
总结与建议:
模型与调优 —— 模型本身思路最为重要,有想法就要尝试,但在调优方面需要有的放矢,盲目的调节参数往往适得其反。
特征选取 —— 不需花太多时间尝试各种特征并验证效果。
数据分布 —— 多关注训练集和测试机数据的不一致性,防止训练集数据的过拟合。
建议 —— 开放 PAI 机器学习平台学习控件的自建功能。
由于概率预报是国际气象预报的前沿,希望能够多组织相关比赛活动。
查看更多内容,欢迎访问天池技术圈官方地址:天池云上智能降雨量预测总决赛-优胜奖RIOFGROUP队攻略分享_天池技术圈-阿里云天池
评论