写点什么

数仓实践丨主动预防 -DWS 关键工具安装确认

  • 2023-04-25
    广东
  • 本文字数:1349 字

    阅读完需:约 4 分钟

数仓实践丨主动预防-DWS关键工具安装确认

本文分享自华为云社区《主动预防-DWS关键工具安装确认》,作者:上官寒雨。


【关键工具确认】


1、gdb 确认是否安装(该工具用户数据库实例触发 core 问题后集群状态反复异常,对此问题及时分析根因并及时进行规避)


登录任意集群节点执行以下命令(HC/HCS/HCSO 环境登录沙箱外执行):


gdb --help


提示以下信息则已安装



2、gstack 是否安装(与 gdb 关联工具,gdb 安装后此工具会默认安装,作用与 gdb 相同)

登录任意集群节点执行以下命令(HC/HCS/HCSO 环境登录沙箱外执行):


gstack


提示以下信息则已安装



gdb 与 gstack 安装请参考以下链接:


https://bbs.huaweicloud.com/forumreview/thread-182292-1-1.html


3、core 是否配置(该配置可以确保数据库实例触发 core 问题后能够抓取异常堆栈信息,以便使用 gdb 工具从所抓取信息中获取触发实例异常 sql 及时规避与根因定位)


集群状态为 Normal 时执行以下命令确认(集群 normal 情况下该操作不影响业务)


kill -11 备 dn 进程号,检查对应的数据目录下是否生成 core 文件,若产生 core 文件则已配置。


若未配置请按照以下链接进行配置:


HC/HCS/HCSO core 配置:https://bbs.huaweicloud.com/forum/forum.php?mod=viewthread&tid=181948


纯软 core 配置: https://bbs.huaweicloud.com/forum/forum.php?mod=viewthread&tid=182036


4、pg_xlogdump 是否存在(异常业务产生大量 xlog 后造成业务慢,磁盘使用率快速上涨等问题,使用此工具解析异常业务)


pg_xlogdump 提示以下信息则已安装(纯软环境加载环境变量后执行,HC/HCS/HCSO 登录至沙箱内执行)



5、pagehack 是否存在(数据文件出现静默损坏使用该工具解析异常数据文件)


pagehack 提示以下信息则已安装(纯软环境加载环境变量后执行,HC/HCS/HCSO 登录至沙箱内执行)



pg_xlogdump 与 pagehack 工具获取如下链接:


https://bbs.huaweicloud.com/forum/forum.php?mod=viewthread&tid=142380


上传步骤如下:


步骤 1:登录至第一个 CN 节点,使用 omm(云上使用 Ruby 用户)将 pagehack、pg_xlogdump 工具上传至该节点 $GAUSSHOME/bin/下


步骤 2:将工具分发至其他节点 gs_ssh -c "scp $hostname:$GAUSSHOME/bin/pagehack $GAUSSHOME/bin/"


gs_ssh -c "scp $hostname:$GAUSSHOME/bin/pg_xlogdump $GAUSSHOME/bin/"


$hostname 为第一个 cn 节点的 hostname。


6、 gs_detect 工具上传步骤(此工具包未运维团队开发,其中包括集群状态异常诊断工具、IO 高工具、数据文件损坏扫描等工具,方便出现问题后及时定位及恢复)


步骤 1:omm 用户登录第一个 cn 节点(云上使用 Ruby),在附件获取 gs_detect 工具并重命名为 gs_detect.tar.gz 上传至第一个 cn 节点/home/omm 路径下(HC/HCS/HCSO 形态放在第一个 cn 节点/home/Ruby 路径下)


步骤 2:使用以下命令解压


cd /home/omm


tar -zxvf gs_detect.tar.gz


步骤 3:将 gs_detect 工具分发至其他节点


gs_ssh -c "scp -r hostname:/home/omm/gs_detect /home/omm"


$hostname 为第一个 cn 节点的 hostname。


注:云上的分发命令需要在沙箱内执行


【系统加固】


1、arm 加固项确认(x86 机器不涉及)


https://support.huawei.com/enterprise/zh/bulletins-product/ENEWS2000007743


2、Centos7.6impi 模块导致服务器反复重启,修复方案见附件 《CentOS7.6 ipmi 模块补丁合入指导.docx》



点击关注,第一时间了解华为云新鲜技术~

发布于: 刚刚阅读数: 4
用户头像

提供全面深入的云计算技术干货 2020-07-14 加入

生于云,长于云,让开发者成为决定性力量

评论

发布
暂无评论
数仓实践丨主动预防-DWS关键工具安装确认_数据库_华为云开发者联盟_InfoQ写作社区