写点什么

一文带你全面了解 openGemini

  • 2023-07-25
    广东
  • 本文字数:2767 字

    阅读完需:约 9 分钟

一文带你全面了解openGemini

本文分享自华为云社区《一文带你全面了解openGemini》,作者: 华为云社区精选。


7 月 19 日,openGemini 社区联合华为云 DTT(技术公开直播课栏目)共同举办了一期主题为《openGemini 时序数据库应用场景与技术实践》的直播活动,华为云开源 DTSE 技术布道师 & openGemini 社区发起人向宇,与广大开发者开展了一次线上的直播交流,就 openGemini 的特点、应用场景、开源目标和价值、差异化竞争力、核心能力、技术生态、运维管理、社区路标等 8 个方面进行了全面细致的介绍。在临近结尾时,向宇表示 openGemini 是一个开放、包容、合作的开源社区,欢迎更多开发者和伙伴加入,共同推动技术创新。

openGemini 的三大特点


openGemini 是一款存储和分析并重的时序数据库,具有三大显著特点:


  • 开源


openGemini 采用的开源 License 是 Apache 2.0,对商业友好,伙伴和开发者可以基于 openGemini 发布自己的商业版本,也可以基于 openGemini 搭建运维监控系统,还可以基于 openGemini 开发监控类产品和服务、构建车联网、物联网以及工业物联网平台等。


  • 高性能


openGemini 从孵化到开源,长期背靠华为云 SRE 运维监控业务,在产品打磨的过程中造就了 openGemini 卓越的读写性能和高效的数据分析能力。


  • 分布式


单机版数据库始终受计算资源限制,无法获得更高的吞吐量和性能。因此,openGemini 从诞生一刻起就设计了分布式集群架构,具备良好的可扩展性和灵活性。

专注海量遥测数据存储分析场景


近年来,随着云计算、AI、5G、物联网等众多新技术的发展和普及,数字化转型如火如荼,在车联网、制造业、物流、电力、物联网、工业互联网、运维监控等领域的数据量出现猛增,例如大型车企一天采集的车辆数据就在 PB 级;TOP 级云厂商每天采集的运维数据超过数十 TB。


面对如此海量的遥测数据,openGemini 通过对上述场景中数据和业务特点深入了解,提出针对性的设计和技术优化方案,实现了集群高并发、高扩展、低时延、低成本的时序数据库系统。



目前,openGemini 已正式在华为云工业物联平台中商业化落地,同时也在支撑整个华为云的运维监控业务,在全网部署有约 25 套集群,最大集群规模为 70 节点,日均处理 20TB 数据,写 TPS 4000 万条/秒,读 QPS 5 万/秒。


在 openGemini 开源的数个月里,和社区取得联系并正式接入业务进行测试和适配的已知企业有 46 家。后起之星火,大有燎原的态势。

6 大能力凸显 openGemini 差异化竞争力


性能优势:在 openGemini 差异化竞争力中,高性能是最重要的一项。openGemini 相比开源 InfluxDB,简单查询场景提升 2 倍多,中等查询场景提升 5 倍多,复杂查询场景下,openGemini 依然可以快速响应,然而 InfluxDB 则出现 OOM 无法工作。此外,openGemini 新研发的高基数引擎,支持时间线无上限,进一步扩大了应用范围。需要了解与其他同类产品的性能对比,可以在官网找到联系方式进行索要



除此之外,openGemini 在数据存储和数据分析方面推出一系列实用功能,以此构建更多差异化竞争力,主要功能如下:


流式聚合:流式聚合是一种前置聚合方式,一边写数据、一边对数据进行降采样,其目的是解决传统降采样方法从磁盘读取大量历史数据进行计算,造成 I/O 放大严重的问题。


多级降采样:对于存量的历史数据,传统降采样方式会保留历史数据明细。在某些场景下,历史数据明细并不重要,只需保留数据特征即可,多级降采样功能可以实现对历史数据明细的特征提取,并原地替换历史数据明细,可进一步降低 50%的存储成本。


日志检索:日志数据是一种特殊的时序数据,多数时序数据库支持日志存储,但仅仅是存储日志数据时还远远不够,日志检索和分析才是存储日志的最终目的。主流针对日志的处理多使用 ELK 技术栈,但面对海量日志时,ES 也变得很吃力。openGemini 采用动态分词方法,在内核实现了全文索引,且具有内存资源占用少,检索效率高的优点,欢迎大家试用和反馈。


异常检测和预测:openGemini 针对时序数据的最终应用开发了基于 AI 的数据分析框架,可实现对时序数据的异常检测和预测,可检测 13 种常见的异常场景,具有检测速度快、准确性高、流批一体的优点,让数据就近处理,提高数据分析效率。


高基数引擎:高基数会带来索引膨胀,从而引起内存资源消耗过高,读写性能降低,长期以来一直困扰着时序数据库的发展。openGemini 从 AP 系统中寻找到解决办法,研发了全新的高基数引擎 HSCE,可支持时间线无上限。目前核心能力已具备,正在完善高基数引擎下的各种聚合方法(计划 9 月可完成)。


核心能力加持,场景应用更宽广


除上述差异化能力之外,openGemini 的核心能力还包括完全兼容 InfluxDB 1.x APIs、算子(函数)和数据行协议,可作为普罗和 openTelemetry 的后端存储,支持数据可靠性(计划 9 月份推出)、物化视图、数据分区分片(支持指定分区键)、数据保留策略等。

强大组件提升运维管理能力


为提升 openGemini 的运维效率,社区开发了 ts-monitor 组件,专门采集节点和内核指标,可搭配 Grafana 实现对 openGemini 运行状态的全面监控。例如 CPU 和内存利用率、写入带宽、写时延、写并发、QPS 等指标可以通过可视化界面一目了然。


拥抱生态,助力应用开发


由于 openGemini 对 InfluxDB 的兼容,因此应用于 InfluxDB 的数据接入工具、SDK、数据洞察工具、大数据分析工具等都能直接应用在 openGemini 之上。


操作系统方面,openGemini 目前已经对主流 Linux 系统、X86 和 ARM64 的 CPU 架构支持,下个版本上可支持 MAC 和 Windows。


云原生方面,openGemini 支持 Docker、K8s、KubeEdge 等平台的部署,为方便在 K8s 部署,社区创建了 openGemini-operator 项目。


数据迁移方面,提供了 InfluxDB 向 openGemini 的数据迁移工具,ES 迁移数据到 openGemini 的工具正在开发中,预计 8 月份可提供。


管理工具方面,数据导出已支持,备份恢复和 GUI 管理工具正在社区开发中,9 月份可以和大家见面。


总结起来,openGemini 支持多种主流开发语言和操作系统平台、与 InfluxDB 的第三方工具无缝衔接、支持多形态的部署及应用。


与我们一起畅想未来


在今年召开的多个国内外行业峰会上,openGemini 进行了主题技术分享和展览展示,充分感受到了大家对 openGemini 的关注,也与很多的开发者进行了技术和业务交流,非常感谢华为云 DTT 技术公开课栏目,借助这次机会得以在广大开发者面前全面而细致的介绍了 openGemini 的方方面面,希望大家自此对 openGemini 有更深的了解。


感谢参与互动和聆听的新老朋友,祝事业蒸蒸日上,百尺竿头,祝同学学业有成,前程似锦!


openGemini 将持续专注于海量遥测数据的存储与分析,为业界提供有效应对海量数据存储和分析的开源解决方案。与此同时,希望成长为一流时序数据库技术社区,培养更多优秀的数据库技术人才,促进数据库行业蓬勃发展!


最后,openGemini 是一个年轻的技术开源社区,空间广阔,充满了无限可能,社区属于所有开发者,希望有更多的企业和开发者共同参与进来,营造良好的开源社区文化,让开源惠及千万家,一起共建、共治、共享未来!


点击关注,第一时间了解华为云新鲜技术~

发布于: 刚刚阅读数: 5
用户头像

提供全面深入的云计算技术干货 2020-07-14 加入

生于云,长于云,让开发者成为决定性力量

评论

发布
暂无评论
一文带你全面了解openGemini_数据库_华为云开发者联盟_InfoQ写作社区