HBase
1 人感兴趣 · 43 次引用
- 最新
- 推荐
巧用 RoaringBitMap 处理海量数据内存 diff 问题
目前,在商品圈选投场景,每个标签id都会根据规则/指标绑定一定数据量的商品集,在圈选规则条件变动或者定时任务触发时会进行商品集的刷新,新增符合规则的商品,删除不符合规则的商品。
浅析 Region split 引入 HFileLink 优化子 Region 操作实现原理
Region Split 使用 HFileLink 代替 reference 生成子 Region,能优化子 Region 读数据、二次分裂和 Compaction 操作,本文对该优化实现原理进行剖析,文章作者为中国移动云能力中心大数据团队软件开发工程师李天梅。
LSM 树读写放大问题及 KV 分离技术解析
本文作者为中国移动云能力中心大数据团队软件开发工程师周翔宇,文章首先分析B+树磁盘随机写问题,引出LSM树并分析其结构、读写流程、Compaction策略以及在HBase中的具体实现。其次,分析LSM树读写放大的根本原因,以及学术界如何通过KV分离技术来优化Compac
大数据培训 HBase 读写性能优化的详解
笔者之前做过一次试验,在一次scan扫描10w+条数据量的条件下,将scan缓存从100增加到1000,可以有效降低scan请求的总体延迟,延迟基本降低了25%左右_大数据培训。
HBase 海量数据高效入仓解决方案
现阶段部分业务数据存储在HBase中,这部分数据体量较大,达到数十亿。大数据需要增量同步这部分业务数据到数据仓库中,进行离线分析,目前主要的同步方式是通过HBase的hive映射表来实现的。该种方式具有以下痛点:
大数据开发之 Hive 表数据同步至 HBase
当我们需要从 Hive 或其他异构存储中往 HBase 里导入大批量数据的时候,走 HBase 原生 API 这种方式一定不是最合适的方案,一是数据同步的效率会比较低,大数据培训其次是数据的持续写入会导致集群频繁进行 flush,compaction 等操作,占用较多的系统资源。
大数据开发之 Hbase 面试题
Client写入 -> 存入MemStore,一直到MemStore满 -> Flush成一个StoreFile,直至增长到一定阈值 -> 触发Compact合并操作 -> 多个StoreFile合并成一个StoreFile,同时进行版本合并和数据删除 -> 当StoreFiles Compact后,逐步形成越来越大的StoreFile -> 单个S
Apache HBase MTTR 优化实践:减少恢复时长
摘要:HBase是Hadoop Database的简称,是建立在Hadoop文件系统之上的分布式面向列的数据库,它具有高可靠、高性能、面向列和可伸缩的特性,提供快速随机访问海量数据能力。
hbase 运维故障案例分析
本章结合笔者的经验、列举真实生产线环境常见的几个问题,并介绍这些地问题的基本排查思路。同时,重点对HBase系统中的日志进行梳理介绍,最后对如何通过监控、日志等工具进行问题排查进行总结,形成问题排查套路,方便读者进行实践。
hbase 运维故障案例分析
本章结合笔者的经验、列举真实生产线环境常见的几个问题,并介绍这些地问题的基本排查思路。同时,重点对HBase系统中的日志进行梳理介绍,最后对如何通过监控、日志等工具进行问题排查进行总结,形成问题排查套路,方便读者进行实践。
大白话彻底搞懂 HBase Rowkey 设计和实现方式
HBase由于它存储和读写的高性能,在OLAP即时分析中发挥着重要的作用。而RowKey作为HBase的核心知识点,其设计势必会影响到数据在HBase中的分布,还会影响我们查询效率,可以说RowKey的设计质量关乎了HBase的质量。
华为云 PB 级数据库 GaussDB(for Redis) 揭秘第九期:与 HBase 的对比
摘要:高斯Redis,兼具开源Redis和HBase各自优点,提供成本更低、性能更好、灵活性更强的数据库服务!
HBase 的 rowKey 设计技巧
HBase是三维有序存储的,通过rowkey(行键),column key(column family和qualifier)和TimeStamp(时间戳)这个三个维度可以对HBase中的数据进行快速定位。
HBase 底层读写过程
HRegionServer保存着meta表以及表数据,要访问表数据,首先Client先去访问zookeeper,从zookeeper里面获取meta表所在的位置信息,即找到这个meta表在哪个HRegionServer上保存着。