工业数据存储的“四道难关”,国产数据库如何应势破局?
01
引言
以工业数据更广泛接入、价值应用为代表的新一代信息技术与制造业的深度融合发展路径为代表的智能制造新业态,积极响应“新时代新征程,以中国式现代化全面推进强国建设、民族复兴伟业,实现新型工业化是关键任务”为内涵的新型工业化发展指导。工业数据应用已经进入价值重构的新阶段,数据作为新型生产要素和重要战略资源,正在制造业数字化转型过程中发挥出更大的作用,工业数据的高效存储既面临着严峻的业务挑战,也承担着尤为重要的价值体现。对下高效支撑百万设备并发接入,居中高效压缩支撑海量数据存储,对上高效应对复杂数据分析需求。
02
工业数据业务挑战
随着智能制造深入发展,工业生产数据作为重要生产要素的支撑作用变得愈发重要,正由“生产制造过程的附属物”向“企业智能化拓展的新资源”而转变,逐渐成为提升制造业生产力、竞争力、创新力的关键点,支撑制造企业全面提升自身行业竞争力。但其自身发展应用也面临着“成本、性能、安全、业务”等诸多方面挑战。
1
数据存储成本挑战
正如包括互联网、移动互联网在内的众多数据互联应用技术一样,工业互联技术中设备接入、数据存储的价格成本是阻碍技术大规模推广应用的最大阻力,企业用户可以充分的感受到新技术所带来的商业变革和业务能力提升,但投入产出比低和价值回报周期长打消了大部分用户的热情。
2
数据存储性能挑战
工业生产数据不同于传统信息系统数据,对于实时性需求尤为苛刻,企业管理层及生产管理层信息系统对于数据存储更关注于数据业务关系,而对于数据实时性能仅要求在分钟、小时、班次、工作日等级别。而在过程监控层及现场控制层的工业生产系统中更关注数据存储的实时性,普遍要求在秒级或毫秒级。
3
数据存储安全挑战
以中美对抗为代表的博弈发展以成为不可回避的发展背景色,信息创新发展自主可控已成为所有信息化系统所要面临的重要挑战,数据安全建立在摆脱技术挟制的大前提下。对于工业生产系统,其数据存储技术的自主可控性是为支撑国家工业关键基础设施、企业重要生产数据可信、可用、可靠的重要保障。
4
数据存储业务挑战
伴随企业走向全面数智化转型发展,工业生产系统已不再是仅操控生产设备的独立控制系统,生产制造执行系统、资产管理系统、安环管理系统、产品数据管理系统等众多与生产制造息息相关的业务系统对于工业生产实时数据都有了更广泛的业务需求,也提出了更高的业务要求,传统工业接口已不能全面满足。
03
工业时序数据存储
用友联合清华大学共建联合研究中心瞄准新型工业软件领域,重点围绕时序数据库和低代码开发平台等大数据系统软件关键技术开展研究工作,重点解决我国工业软件 AIoT 平台在物联网时序数据库及工业低代码应用开发方面的“卡脖子”难题,推出扩展了企业服务能力的商用版 TimensionDB 时序数据库。致力于解决因设备采集点数量巨大、数据采集频率高造成的存储成本高、写入和查询分析效率低的问题,全面支撑企业工业数据价值化应用。
产品具备以下六大核心优势:
100%自主可信:与清华团队合作,数据分析引擎完全自主研发;
海量数据接入:支持百万级低功耗强连接设备数据接入;
数据高速写入:实现单机每秒 1000 万数据点的高速写入能力;
低成本存储:实现 1:150 以上的压缩比,硬件成本降低且 10 亿数据点存储成本<1.4 元;
高速向量计算:实现预降采样、插值以及复杂的多维计算分析;
数据快速查询: 10 亿级数据量、千万数据点查询可毫秒级响应。
用友为支撑智能制造数据应用需求,打造出工业时序存储的六大能力:
查询引擎:TimensionDB 时序数据库支持类 SQL 形式的数据操作方式,同时提供 JDBC 和 SDK 两种接入方式。能够支持 10 亿级数据量、千万数据点查询的毫秒级响应,并提供面向时间序列的丰富查询语义,面向时序数据特征的计算,面向时间维度的丰富聚合函数支持。
存储引擎:TimensionDB 时序数据库支持百万级低功耗强连接设备数据接入,支持单机每秒 1000 万数据点的高速写入,同时支持时序数据专用的 TsFile 存储格式,可实现 1:150 甚至更高的压缩比,保障高压缩比的磁盘存储能力,10 亿数据点硬盘成本低于 1.4 元。TimensionDB 时序数据库支持 INT32、INT64、BOOLEAN、FLOAT、DOUBLE、TEXT 等数据类型,支持 SNAPPY、LZ4、GZIP、SDT 等压缩方式,支持 PLAIN 编码、二阶差分编码、游程编码、GORILLA 编码、字典编码等多种编码方式。
分析引擎:TimensionDB 时序数据库提供多维分析能力,支持分析脚本管理、计算上下文和输入参数,支持维度管理,并设置维度的层级汇总关系和系数,支持全局维度、本地维度分组聚合,加权求和、平均值等计算,支持数据集过滤和排序操作,支持切片计算、四则运算、周期性分桶聚合等操作,支持不同业务的分析脚本相互隔离,提供专用的多线程多维计算算法,充分利用服务器的硬件资源来提高计算速度。
分布式架构:TimensionDB 时序数据库提供弹性伸缩的能力,适应不同规模时序数据的存储与分析需求,弹性伸缩采用大规模并行处理(MPP)架构和火山模型进行数据处理,具有很高的扩展性,支持秒级增加节点而无需进行数据迁移。
数据订阅:TimensionDB 时序数据库支持动态管理订阅条件,订阅条件支持多种聚合计算方式,支持根据订阅条件向业务应用实时推送时序数据。
对接开源生态:TimensionDB 时序数据库支持开源数据分析生态系统:Hadoop、Spark,同时支持开源可视化工具对接:Grafana。
04
结语
研发国产自主可控时序存储技术,将相同类型的数据点以彼此相邻的方式存储数据,使用最佳压缩算法节省存储成本,构建无固定模式的底层表底定义,灵活快速添加新字段支撑业务变化,提供存储转发技术将缓冲区会同步上传,确保不会丢失数据。从根本应对来自“成本、性能、安全、业务“的多重挑战。个人电脑降价普及加之 Internet 技术性能发展,迎接了全面互联网时代的到来;智能手机降价普及加之 4G 通讯技术性能发展,迎接了移动互联网时代的到来;工业设备智能化接入及数据存储成本降低及 IOT 相关技术性能的发展,也将迎接工业互联网时代的到来,进一步为广泛工业生产企业带来新机遇、注入新动能、开辟新蓝海,推动实现智能制造深度转型。
评论