写点什么

Ceph PG 状态介绍

  • 2024-07-19
    北京
  • 本文字数:1009 字

    阅读完需:约 3 分钟

本文分享自天翼云开发者社区《Ceph PG状态介绍》,作者:wwwdl


一、基本概念

size:副本数(如三副本,size=3);

min_size:支持可读写的最小副本数(如三副本,min_size=2);

upset:pg 的目标 osd 列表;

actset:pg 可接受读写 osd 列表。

如下为 osd 异常,重新选择 osd,pg 的 osd 列表变化过程:



二、pg 各个状态

(1)creating:创建 pool 时,自动创建 pg,此时会出现该状态;

(2)active:pg 活跃态,表示 pg 可以接受读写业务,当 pg 状态不是 active 时,集群将业务异常,会导致上层业务大面积瘫痪;

(3)clean:pg 处于健康态,三个副本的数据是一致的;

(4)recovering:pg 增量恢复,根据日志条目,复原数据;

(5)backfilling:pg 全量恢复,根据全量扫描对象,比较差异,还原差异数据;

(6)recovery-wait / backfill-wait:pg 需要增量/全量恢复,当前等待状态,由于每个 OSD 并发恢复 pg 个数的限制(默认值为 1);

(7)recovery-toofull / backfill-toofull:OSD 出现容量使用超过门限值 95%,无法数据迁移;

(8)scrubbing:扫描 pg 副本的元数据,副本之间进行比较,保证元数据一致,默认开启,一般一周扫描一次;

(9)deep+scrubbing:扫描 pg 副本的元数据与数据,副本之间进行对比,保证元数据和数据一致,默认关闭,由于扫描数据相当耗时,影响业务;

(10)inconsistent:扫描数据之后出现数据不一致,默认没有开启自动修复;

(11)repair:数据不一致时,修复数据的状态,默认关闭,需要手动出发修复,修复的原理:将正常的 OSD 的数据推送给异常的 OSD。

(12)peering:协商副本之间数据一致性;

(13)degraded:降级态,peering 完成后,检查到 PG 有对象需要修复;

(14)remapped:upset 不等于 actset;

(15)undersized:actset 小于副本数(size);

(16)activating:peering 完成之后,同步固化 peering 的结果(info、log);

(17)peered:peering 已经完成,当出现 actset < min_size;

(18)down:peering 过程中检查到,当前在线的 osd 无法完成数据修复;

(19)imcomplete:peering 过程中,无法选取权威日志。 

(20)stale:未刷新态,mon 将 osd 标记为 down,可能由于网络原因,osd 没有感知 mon 把自己标记为 down,osd 主动上报 pg 的列表还包含自己,被 mon 发现,将被标记为 stale;

(21)snaptrim:删除快照;

(22)snaptrim-wait:由于每个 osd 并发的限制,已经有 pg 在做删除快照,那么其他的 pg 必须等待;

(23)snap-error:删除快照时,遇到异常情况, 如果出现 snap-error,问题很严重,意味着丢失数据了。

用户头像

还未添加个人签名 2022-02-22 加入

天翼云是中国电信倾力打造的云服务品牌,致力于成为领先的云计算服务提供商。提供云主机、CDN、云电脑、大数据及AI等全线产品和场景化解决方案。

评论

发布
暂无评论
Ceph PG状态介绍_分布式_天翼云开发者社区_InfoQ写作社区