墨天轮国产数据库沙龙 | 四维纵横姚延栋 :MatrixDB,All-in-One 高性能时序数据库
分享嘉宾:姚延栋北京四维纵横数据有限公司创始人、原 Greenplum 北京研发中心总经理、Greenplum 中国开源社区创始人、PostgreSQL 中文社区常委、壹零贰肆数字基金会(非营利组织)联合发起人
整理:墨天轮社区
导读
物联网、车联网、工业互联网的快速发展,标志着我们正在加速进入万物互联的时代,时序数据库成为数据架构技术栈的标配。
MatrixDB作为全球超融合时序数据库开创者,专为物联网、车联网、工业互联网和智慧城市打造的一站式数据平台。今天我分享的内容分为四个主题:时序数据与时序数据库,MatrixDB 特点、MatrixDB 案例。
时序数据
1、什么是时序数据?
首先,时序更多是一种视角,用来洞悉过去、分析未来、决断现在。
在每一个时刻都会产生各种各样的数据,比如指标数据、位置数据、点云数据、图像数据等,类似于一个快照。不同时刻持续的数据积累下来,就形成了一个时间序列,这就是时间序列数据。
在某一个时刻我们可以知道当下的状态,这些时刻的叠加就可以洞悉过去分析、决断未来,这就是时序数据库的巨大价值。
时序数据处处皆有,且快速增长。在未来时序数据的体量将会越来越大,且处处皆有。时序数据一定要有关系数据的整合,才能发挥真正的价值。
2、基本概念和建模
时序数据三种建模方式分为:窄表模式、宽表模式、树形模式。
窄表模式:类似 Sorted KV,⼀条表示⼀个数据点,核⼼是指标,弱设备概念
宽表模式:⼀条表示多个数据点,核⼼是设备或者实体
树形模式,核⼼是指标,与窄表区别是以层级⽅式组织元数据
三种模式,窄表写⼊灵活,宽表查询灵活,树居中。
图 1 三种建模模式的对比
时序数据库
1、时序数据库的发展演变
时序数据库的发展最早可追溯到上世纪 80 年代。而在早期时序数据库都是针对特定的场景。
MatrixDB 在 2020 年创立,在万物互联的趋势下,为物联网、车联网、工业互联网设计的一款特特色的数据库。
图 2 时序数据库演进历史
2、时序数据库的发展趋势
第 1 大趋势:从监控走向分析
过去时序场景主要用于服务器监控,服务器不过几万台,存储 7 天到 30 天的数据,数据量小且主要目的是监控;但随着物联网、工业物联网、车联网的崛起下,数据量大且主要目的是分析,通过分析挖掘海量时序数据的价值。
第 2 大趋势:数据模型从窄表走向宽表
相比于“窄表”,“宽表”能够业务相关的测点、维度和属性信息放在一张或者几张数据库表中,存储效率高,速度快,适合大数据量及复杂业务场景。
在物联网、工业物联网、车联网的场景的崛起,时序数据库越来越重视分析,宽表模型越来越多,近几年出现的新时序数据库也都是以宽表模型为主。
第 3 大趋势:数据规模走向 PB 级
随着物联网的发展,数据规模将会越来越大,从之前的 GB/TB 级走向 PB 级。
第 4 大趋势:技术栈走向超融合时序数据库
从各种开源软件拼搭起来走向 ONE FOR ALL 的架构方式。借鉴奧卡姆剃刀原理:“如无必要,勿增实体”。一个数据库可以完成的事情,就不需要太多的数据库来处理。
因此,MatrixDB 的目标是把“极简”、“极速”留给用户,把复杂留给数据库开发人员。
图 3 时序数据库的未来发展趋势
MatrixDB 特点
1、MatrixDB 产品简介
MatrixDB 是全球首款超融合时空数据库,基于自主研发的多项专利技术,实现海量时空数据的快速采集、高效存储、实时分析以及深度学习(ML+AL),比传统的时序数据库 InfluxDB、OpenTSDB 性能快 50 倍,空间节省 60%以上,比传统的 MPP 数据库快到 3-100 倍。
Matrix DB 广泛应用于能源、航空航天、汽车和车联网、智能制造和工业互联网、金融、保险、证券、5G 通信、雷达和气象、智慧农业、生物医疗研发、智慧城市、智能家居等各行各业,覆盖智能监控、实时控制、设备溯源、用户画像、行为分析和预测分析等多种应用场景,为物联网、车联网、工业互联网和智慧生活提供坚实、简洁的数据基座。
图 4 MatrixDB 全景图
2、MatrixDB 产品优势
All in One:一个数据库直接处理各种数据类型,不管是时序数据、GIS 数据、传统的关系数据、KV 数据或 JSON 数据等。
稳定可靠:MatrixDB 基于开源的 Greenplum 及 PostgreSQL 来开发,这两个产品都经过几十年的积累沉淀。研发内部也有很多的测试用例,分两大类:几十万的静态测试及混沌测试 ,可以说 MatrixDB 是站在巨人的肩膀上。
大规模:海量的数据规模已经达到 PB 级的数据量,数据库要能支持 100 PB 级,大量节点的可扩展性,线性扩展能力强可以随时加节点,能力是呈现线性增长的,在线性扩展点上,最小的集群能支撑多大的数据量。
高性能:MatrixDB 是支撑于 Greenplum,使用核心的 MPP 为主体架构,在此基础上加了专门优化时序场景的执行器,以及为时序场景优化的存储器。
企业级特性齐全:对于数据库而言,POC 关注性能,一旦上了生产,更关注稳定性、可运维性,MatrixDB 有监控报警、在线扩容、备份恢复及安全控制等企业级特性非常的齐全。
生态完备:与 PostgreSQL 12 / Greenplum 兼容,无缝对接 Hadoop 生态,在数据库内部进行 Machine Learning 训练,支持 Python 及 R 等 UDF。
图 5 MatrixDB 产品优势
MatrixDB 案例
MatrixDB 的应用案例主要分为三大类:数字孪生智能设备、工厂大脑智能制造、经典数仓实时分析。
图 6 MatrixDB 案例场景分类
1、案例一:某造车新势力
新能源造⻋新势⼒快速发展,销量年增⻓率超过 200%,过去基于 OpenTSDB+Hive 的技术架构⽆法⽀撑其快速增⻓的数据量和业务,创新迭代速度受限,成为发展瓶颈。
使用 MatrixDB 建设后效果明显,硬件成本节省 80%,写入效率提升 10 倍、特定查询效率提升 100 倍、开发运维效率提升 1 倍。
图 7 MatrixDB 在造车新势力的应用案例
2、案例二:某能源科技巨头
动⼒电池制造巨头,基于电池充放电数据分析,⽀持电池健康状况检查、电池⻛险预警、电池⼯艺优化等关键业务。由于业务快速增⻓,基于 Spark + Hive 的⽼架构成为瓶颈。
通过 MatrixDB 建设后,实现了存储 500TB 电池充放电数据、计算开销节省 85%、存储开销节省 30%的效果。
图 8 MatrixDB 在新能源科技的应用案例
3、案例三:某装备制造业巨头
智能装备运维和优化某装备制造业巨头对分布在全球各地的产品进⾏智能化改造,使其对产品的使⽤过程了如指掌,为客户提供运维管理、预测维修、动⼒优化等。
用 All-in-One 替代 MySQL/TDEngine/Greenplum/Spark,实现集群硬件节省⼀半,性能提升 6 倍的效果。
图 9 MatrixDB 在装备制造业的应用案例
4、案例四:某物流物联⽹服务商
建设效果:
数⽉数据量:300TB
实时定位:100ms 返回,1000 并发
1 天轨迹 500ms 内返回,3 天轨迹 1 秒返回
数据延迟不超过 1 分钟
图 10 MatrixDB 在物流互联网服务商的应用案例
5、案例五:某省工厂大脑
2021 年 11⽉完成多条总装⽣产线、裁切机和数控机床的接⼊以及安吉、越南两套 ERP 系统和⼀套 MES 系统的全部数据清洗和标准化接⼊⼯作,实现了第⼀阶段透明⼯⼚建设⽬标,22 年全省推⼴。
图 11 MatrixDB 在某省工厂大脑的应用案例
6、案例六:某制药企业
传统的⼯业⼤数据“复杂”、“低效”,投⼊巨⼤产出甚微,使得很多⼯业企业谈“⼤数据”⽽⾊变。基于 MatrixDB 的⼯业⼤数据平台解决⼤数据复杂度问题,把“极简”、“极速”留个客户。
图 12 MatrixDB 在某制药企业中的应用案例
7、案例七:某制造企业
某国际知名制造业企业通过收集⼯⼚的各种数据,分析影响成品率的主要因素,改进⽣产流程,降本增效,⼤幅提升利润率。
图 13 MatrixDB 在某制造企业的应用案例
以上就是我今天的分享内容,谢谢大家!
更多精彩内容,欢迎大家观看视频回放与会议资料视频回放:https://www.modb.pro/video/6115会议资料:https://www.modb.pro/doc/57017
查看【国产数据库沙龙】往期生态工具、图数据库专场文章、视频回放资源:https://www.modb.pro/topic/157860
墨天轮,围绕数据人的学习成长提供一站式的全面服务,打造集新闻资讯、在线问答、活动直播、在线课程、文档阅览、资源下载、知识分享及在线运维为一体的统一平台,持续促进数据领域的知识传播和技术创新。
关注官方公众号: 墨天轮、 墨天轮平台、墨天轮成长营、数据库国产化 、数据库资讯
版权声明: 本文为 InfoQ 作者【墨天轮】的原创文章。
原文链接:【http://xie.infoq.cn/article/ce04b6678edd4d4f0827ab0a6】。
本文遵守【CC-BY 4.0】协议,转载请保留原文出处及本版权声明。
评论