MyEMS 开源能源管理系统核心代码解读 002

往期解读:
本期解读:
能耗数据清洗算法:myems/myems-cleaning/clean_energy_value.py
代码见底部截图
这段代码是一个用于清洁和标记能源数据质量的 Python 脚本,主要用于处理能源值数据,识别并标记出异常或“坏”的数据点。以下是对代码的概括性总结和详细解析:
总结
连接数据库:脚本首先尝试连接到历史数据数据库。
确定处理时间范围:确定需要清洁数据的时间范围。
识别异常数据:
步骤 2:检查两类异常情况。第一类是基于预设的高限和低限的异常值;第二类是形状为凹形(concave)的异常数据模式。
步骤 3:进一步检查凹形数据模式。
4.标记异常数据:将识别为异常的数据点的 is_bad 属性标记为 1。
5.重置未检查的数据:将未检查的数据点的 is_bad 属性重置为 0。
6.休眠与重试:处理完毕后休眠一段时间后继续执行。
详细解析
数据库连接:使用 mysql.connector 连接到 MySQL 数据库,处理任何连接错误。
确定时间范围:
从数据库中查询最后一个已检查(is_bad 非空)和未检查(is_bad 为空)的数据点的时间,以确定需要清洁的时间范围。
如果所有数据点都已检查,则从配置的起始日期时间开始。
3.异常数据检查:
步骤 2:检查两类异常数据。第一类是超出高低限的数据点;第二类是形状为凹形的数据序列。
步骤 3:对凹形数据进行更详细的检查,识别不符合正常趋势的数据点。
4.更新数据库:
将识别为异常的数据点的 is_bad 属性更新为 1。
对于那些在处理时间范围内未被检查的数据点,将它们的 is_bad 属性重置为 0。
5.错误处理和日志记录:在每一步骤中,如果遇到异常,记录错误信息,并在休眠后重试。
6.循环执行:脚本在完成一次清洁操作后休眠一段时间(例如 15 分钟),然后重新开始,确保持续监控和清洁数据。
注意事项
脚本使用配置文件(config 模块)来获取数据库连接信息和其他设置。
异常检测逻辑依赖于特定的业务规则和数据特性,可能需要根据实际情况调整。
数据库操作包括读取数据点、更新数据点的状态等,需要确保数据库性能可以支持这些操作。
错误处理和日志记录对于监控脚本状态和调试非常重要。
脚本在每次运行结束后休眠,这是为了避免过度频繁地查询数据库,同时允许新数据积累到一定量后再进行处理。
评论