记一次 K8s 排错实战
data:image/s3,"s3://crabby-images/3b9ca/3b9cacf580069cb1bf87a9dfc2442b995347d350" alt="记一次K8s排错实战"
一 背景
收到测试环境集群告警,登陆 K8s 集群进行排查。
二 故障定位
2.1 查看 pod
查看 kube-system node2 节点 calico pod 异常
data:image/s3,"s3://crabby-images/4d460/4d46009f90d6cb7496e51742da54fdd09b2ca5a7" alt=""
查看详细信息,查看 node2 节点没有存储空间,cgroup 泄露
data:image/s3,"s3://crabby-images/75d3c/75d3ce2e5b31451c1a4085aeb9113b9b52c11d9b" alt=""
2.2 查看存储
登陆 node2 查看服务器存储信息,目前空间还很充足
data:image/s3,"s3://crabby-images/a9f71/a9f716fd8fa5685f2d2667a261da68c0c9e76487" alt=""
集群使用到的分布式存储为 ceph,因此查看 ceph 集群状态
data:image/s3,"s3://crabby-images/a3fff/a3fffb4de20f84ff0a387c67fa3868916a41d5d6" alt=""
三 操作
3.1 ceph 修复
目前查看到 ceph 集群异常,可能导致 node2 节点 cgroup 泄露异常,进行手动修复 ceph 集群。
data:image/s3,"s3://crabby-images/d4baa/d4baa06fde10e5c7c0d002fdf9cc704726dd176f" alt=""
由图可知,pg 编号 1.7c 存在问题,进行修复。
pg 修复
data:image/s3,"s3://crabby-images/c63b1/c63b19d9b4905002599b51408f76a5b2e52661bf" alt=""
进行修复后,稍等一会,再次进行查看,ceph 集群已经修复
data:image/s3,"s3://crabby-images/bd1ff/bd1ff09816552f288196fe59e874b5987871db8e" alt=""
3.2 进行 pod 修复
对异常 pod 进行删除,由于有控制器,会重新拉起最新的 pod
data:image/s3,"s3://crabby-images/b53fa/b53fa70d3f8dd96b09888cc6559de2537d214a0d" alt=""
查看 pod 还是和之前一样,分析可能由于 ceph 异常,导致 node2 节点 cgroup 泄露,网上检索重新编译
Google 一番后发现与https://github.com/rootsongjc/kubernetes-handbook/issues/313 这个同学的问题基本一致。存在的可能有,
Kubelet 宿主机的 Linux 内核过低 - Linux version 3.10.0-862.el7.x86_64
可以通过禁用 kmem 解决
查看系统内核却是低版本
data:image/s3,"s3://crabby-images/34916/3491600c829bc09f998b6dac1228e61fef121c70" alt=""
3.3 故障再次定位
最后,因为在启动容器的时候 runc 的逻辑会默认打开容器的 kmem accounting,导致 3.10 内核可能的泄漏问题
在此需要对 no space left 的服务器进行 reboot 重启,即可解决问题,出现问题的可能为段时间内删除大量的 pod 所致。
初步思路,可以在今后的集群管理汇总,对服务器进行维修,通过删除节点,并对节点进行 reboot 处理
3.4 对 node2 节点进行维护
3.4.1 标记 node2 为不可调度
data:image/s3,"s3://crabby-images/b0a21/b0a21504c3c66c73eb0fa95b5b18091460edf82e" alt=""
3.4.2 驱逐 node2 节点上的 pod
--delete-local-data 删除本地数据,即使 emptyDir 也将删除;
--ignore-daemonsets 忽略 DeamonSet,否则 DeamonSet 被删除后,仍会自动重建;
--force 不加 force 参数只会删除该 node 节点上的 ReplicationController, ReplicaSet, DaemonSet,StatefulSet or Job,加上后所有 pod 都将删除;
data:image/s3,"s3://crabby-images/11478/114780b56c2928c492cccef6c1c417445ae1c2d3" alt=""
目前查看基本 node2 的 pod 均已剔除完毕
data:image/s3,"s3://crabby-images/c8d8b/c8d8b2f41f2e69916eea4343a5c86545f3eea5f5" alt=""
data:image/s3,"s3://crabby-images/bdc13/bdc13b6049aadcaa19951feda4bf9a419656bafc" alt=""
此时与默认迁移不同的是,pod 会先重建再终止
,此时的服务中断时间=重建时间+服务启动时间+readiness 探针检测正常时间,必须等到1/1 Running
服务才会正常。因此在单副本时迁移时,服务终端是不可避免的。
3.4.3 对 node02 进行重启
重启后 node02 已经修复完成。
对 node02 进行恢复
恢复 node02 可以正常调度
data:image/s3,"s3://crabby-images/5c936/5c936d564168f7d59eff65c2675ba81f78adf230" alt=""
四 反思
后期可以对部署 k8s 集群内核进行升级。
集群内可能 pod 的异常,由于底层存储或者其他原因导致,需要具体定位到问题进行针对性修复。
参考链接
https://blog.csdn.net/yanggd1987/article/details/108139436
版权声明: 本文为 InfoQ 作者【雪雷】的原创文章。
原文链接:【http://xie.infoq.cn/article/3afa734820b9a1f91059eb7b2】。文章转载请联系作者。
评论