写点什么

生物医药指数高频数据的波动率分析

用户头像
容光
关注
发布于: 2021 年 04 月 10 日
生物医药指数高频数据的波动率分析

容光 2021.4.10

生物医药指数反映医药生物行业的整体走势,本文采集了上海证券交易所生物医药 sh000808 的 2020 年的高频数据,用来分析长短期波动率的变化,挖掘有价值的规律,供相关医药公司及投资人阅读参考。

数据来自上海证券交易所,上午为前市,集合竞价时间为 9:15-9:25,连续竞价时间为 9:30-11:30,下午为后市,连续竞价时间为 13:00-15:00。2020 年数据总量为 693280 个,见表 1、表 2,开盘前竞价时间段有最新指数价格,但是没有成交额和成交量,开盘后有些时间点数据取值为 0,原始数据要进行预处理。



开盘竞价指数价格与当天首次成交最新价格相差较大,本文主要以开盘后的数据进行分析。数据以 5 秒为单位进行采样,成交额以元为单位,成交量以股为单位,买卖方向为两类,数据量很大,2020 年数据总量为 693280 个,经过预处理后,选取数据为 692862 个,无效数据为 418 个。表 3 为 2020 年成交时间 0、最新指数 1、成交额 2、成交量 3、成交方向 4 的数据,以下按此数据进行分析。


1. 数据描述统计

从以上数据可以发现成交额和成交量的波动幅度很大,最新指数的变动较小。我们主要关心的是最新指数的规律,运用成交额、成交量的变化探索对最新指数的影响,或者关注异常点产生的时间,了解最新指数长短期的变化,计算波动率,通过窗口操作,获得长短期变化的结果等。

2. 统计图表展示




3. 异常值处理

图形很明显存在异常值,需要进行异常值处理。图 1 中显示最高成交额接近 10000000000,从以上得到的 692862 个有效数据中,查看异常值有两个,最大值为 9840976000.0,索引为 201042 位,时间为 2020-04-20 12:42:37,此时间为盘前撮合时间,撮合成交量非常大,不属于连续竞价交易范围。第二高的成交额为 2603115000.0,索引为 45622,时间为 2020-02-03 09:25:17,也不属于连续竞价交易范围,去掉这两个值后作图,数据量为 692860 个,将该数据保存为 csv 文件,以下图形看上去就比较正常了,适合对连续竞价期间的成交额进行深入分析。

2020 年最新指数的原始数据共 693280 个数据,如图 3 所示,明显存在异常点,最新指数为 0,时间为 2020-12-24 08:45:30,索引为 676159,不在连续竞价时间范围,可以删除该数据。最终与成交量、成交额为 0 的数据也一并删除,得到最新指数的有效数据共为 692862 个数据,对数据进行作图观测,发现数据波动依然较大,如图 4 所示。


与成交额、成交量的异常取值情况相似,索引为 201042 的最新指数数据报价为 11959.2,报价时间为 2020-04-20 12:42:37,不属于连续竞价时间,索引为 45622 的最新指数为 10129.7,报价时间为 2020-02-03 09:25:17,亦不属于连续竞价时间,删除掉这两个数据,共计有效数据为 692860 个。其中,最新指数的最小值为 9789.45,索引为 199613,时间为 2020-04-20 09:31:03,属于连续竞价时间,不应删除,并作描述统计分析。

经过异常值处理之后,获得 692860 个样本数据。成交额的均值为 19013560 元,成交量的均值为 6385.931708 份,最新指数均值为 13486.771301,这是 2020 年 sh000808 医药生物总体的运行情况。

4. 高频波动率计算

成交额的波动率具有较大随机性,有成交就有成交额,成交量大自然成交额大,每个时间点的成交量是随机的,成交额亦是随机的,直接计算波动率,所得数据相差很大,去掉异常值的成交额计算得到的高频波动率起伏很大,如下各图所示。


成交量的波动率变动非常大,直接观看成交量的波动率图形意义不大。图形状态规律不明显,计算均值、中位数、四分位数等更具有意义,见表 8。


2020 年成交额的高频波动率的均值为 27.82%,中间部分的波动率在-23.85%至 30.63%之间,最多亏损为 100%,说明中途没有额外负债的情况发生,成交额往上升的波动幅度可以达到 21000 倍以上。成交量高频波动率的变动相应更大,中间部分的波动率在-26.45%至 35.24%之间,上升最高幅度达 40000 倍以上,这也是证券市场为何喜欢做多的原因,做多的空间很大,做空的空间很小。

最新指数的最高波动率为 0.20746818,索引为 201040,最低波动率为-0.15738846,索引为 199598。高频波动率<=-0.05 的有-0.05036709(索引 45621)、-0.05135988(索引 128316)、-0.15738846(索引 199598)。高频波动率>=0.05 的只有 0.20746818(索引 201040),时间为 2020-04-20 13:00:02,最新指数为 11955.07,说明 2020-04-20 这天为重要时间点,有重要事件公布,导致价格波动幅度很大。在绝大部分时间情况下最新指数的波动幅度很小,意味着从高频时间来看,整个生物医药版块为比较平稳上升发展的趋势,从低频时间来看,显然波动幅度是比较大的,因此生物医药指数版块适合长线投资。

5. 最新指数的窗口滑动分析

取窗口为 10000,计算平均最新指数,具体滑动窗口的最新指数见图 11,波动率见图 12。取窗口为 20000,具体滑动窗口数据见图 13、图 14。




计算时间天数:(10000/672861)*365≈5.42。

此时最新指数的波动率最大幅度在[-6.7536%,7.3799%]之间,时间间隔天数大约为 5 天,包含节假日时间。       

同理:(20000/652860)*365≈11.18。

此时最新指数的波动率最大幅度在[-8.6838%,8.9116%]之间,时间间隔天数大约为 11 天,包含节假日时间。

6. 总结

根据买卖方向,统计前述最终选用的 692860 个数据,买入方向的共计 687443,占比 99.22%,卖出方向的共计 5417,占比 0.78%,即 2020 年全年绝大部分时间长期持有,仅有少量卖出。根据大量的原始高频数据,剔除明显不合理的异常点,大多在开盘前或开盘后,集中撮合阶段导致数据量放大。极短时间的高频波动率是非常小的,说明超高频、高频时间段内发生极值的概率极低,整体医药生物指数平稳。

短期价格趋势的统计特性以及丰富的数据信息,有助于判断价格的短期行为对长期走势的影响,有时异常点意味着宏观调控政策的出台或上市公司的年报集中披露,可以观测宏观调控对指数价格的影响。采用窗口滑动分析,运用高频数据,适合于分析资产短期风险,也可以更仔细地了解长期风险。

将窗口滑动放大之后,可以计算稍长时期的最新指数的波动率变化,窗口滑动越大,波动率的幅度也增大。从各个指标的波动率可以看出做多的空间远远大于做空的空间,这里不考虑负债融资的影响。波动幅度控制在 10%的范围,则需要观察半月的均线,以此类推,想观察较大幅度的变化,需要搜集更多历史资料进行分析。观察医药生物指数的变动,对企业和投资者均会产生一定的影响,对企业现金流、投资收入回报率、回收时间长短、医药主流基金均有一定的指引作用。


发布于: 2021 年 04 月 10 日阅读数: 37
用户头像

容光

关注

恰到好处 2021.02.28 加入

还未添加个人简介

评论

发布
暂无评论
生物医药指数高频数据的波动率分析