写点什么

运维工程师小张的日记

发布于: 2021 年 02 月 25 日
我是一名来自 XSKY 的运维工程师小张。



图片来源于网络


应公司市场部同学的邀请,我今天用日记的方式来向大家讲述我工作中忙碌又普通的一天。


2020 年 12 月 X 日,晴,某金融客户变更日。


8:30 客户变更室 巡检


刚到门口,就看到部门的新人小浩已经在门口朝我挥手了。


“师傅,早呀!”


简单向他交代几句,我们就开始进行日常巡检。巡检的内容包括:从界面查看并处理告警、检查集群是否健康、存储池与硬盘的负载与时延、SSD 缓存盘的负载和寿命等。


经历过公司的专业培训,这个过程对我来说并不复杂,但近 20 个集群,全部处理完也用了不少时间,当然还包括回答小浩同学的各种问题。


10 点 30 分左右,开始沟通甲方和相关同事,确认当晚的变更事项,整理好变更单,申请堡垒机权限,为晚上的工作做好准备。


之后我开始处理邮件,操作手册规定“所有变更类操作需要邮件报备部门领导与二线进行检查确认”,而我的工作就是确保每个操作步骤都符合规定,不能出现纰漏。


12:30 餐厅 突发事件


全部处理完已经到了午休时间,和大家边吃边聊工作,顺便提问检查小浩上午的实践学习情况,但其实他提的问题比我还多。



“张神,咱们负责的这个大客户都用咱们什么产品呀?主要承载上层哪些业务…”


虽然不知道为什么我就变成了“张神”,不过给他讲一讲还是有必要的。


“咱们现在的工作就是保障客户的存储集群正常运行,发现并处理问题,优化存储性能。客户目前使用了我们的 EBS 块存储和 EOS 对象存储两种产品,有近 20 个集群,300 多台物理节点,上面承载很多金融业务,工作量不小,更需要打起精神。”


正聊着,我的手机突然响了,是其它项目的客户。


“八成是来活儿了。”我边说边示意大家赶紧吃完。


果不其然,客户的存储集群出现了两个坏盘,不影响使用,可语气很焦急,希望尽快处理。


“不必担心,XSKY 存储属于软件定义的分布式存储,按集群架构,宕掉两个节点也不会丢失数据。有备用盘,我们可以随时更换。”


挂上电话,我转头对小浩说:“回去仔细看更换硬盘的文档,下午带你操作一次。”


15:00 办公室 远程服务


变更操作刚得到总部的确认,中午联系的客户已迫不及待地打来电话,新硬盘就位,现在就可以更换。


我再次和小浩确认了操作步骤:


1、定位故障硬盘在服务器上的槽位


2、拔出故障硬盘,插入新硬盘


3、图形界面勾选新硬盘点击【重建】


更换两块硬盘、远端机房硬件工程师的联动操作,20 分钟完成。客户惊讶于过程竟然如此简单。


“是的,全过程业务无感知,就像打印机换墨盒,属于常规操作…”


挂上电话,我开始交代小浩:“明天联系一次客户,更换硬盘后数据会做重平衡,确认重平衡完成、集群健康,任务才算完。”


小浩一边点头一边做着记录,“咱们的产品也太方便了吧,点点鼠标就搞定了!”


“研发的同事付出了很多努力。当然,咱们的反馈也很有用,对于产品优化来说,咱们就是眼睛,要注意发现问题,沟通用户、搜集信息并及时反馈,绝不只是解决完问题就完了。”


16:00 办公室 整理文档


小浩整理自己的工作笔记,我偷看了一眼,写的很认真,不过他为什么在自己的本子上边写边“涂鸦”?


算了,只要能记清楚,方式不重要。



公司是有知识库和学习文档的,但每个人的知识面和过程中的感悟是不同的,就像听同一堂课,学生们的笔记也不尽相同,但只要勤于总结、积累,就能把它变成自己的经验。


看完他,我也打开实施报告、工单忙了起来。


18:00 大厅 休息时间


晚上还有数据迁移的“硬仗”,我提议大家一会儿出去吃饭。


“张神,咱们忙了一天了,我是真不想走远路了!”小浩说道。


另一个同事调侃:“小浩,现在不活动一下,晚上可要盯一夜呢,你见过坐久了,人锈在椅子上吗?”


他说的没错,这是运维工作最难熬的部分,每周都有几天加班到凌晨三、四点。运维的工作几乎没有什么高光时刻,我们要把“用心”放在每时每刻,确保用户存储的正常运行,重要但也平凡。


20:00 变更室 通宵


数据迁移开始了。


这是一场云管、计算、存储、最终用户四方联动配合的重大变更,由云管协调,最终用户远端配合,计算端 10 个终端同时并发迁移脚本,存储端时刻监控后台日志与迁移进度。


每迁移完一个应用,云管负责通知最终用户进行验证,如果存储端发现问题,则要及时与计算端进行确认并迅速处理。紧绷的精神状态一直持续近 6 个小时,直到凌晨 2 点多钟,迁移脚本全部跑完了,用户端业务全部验证没有问题,此时对于最终用户、云管、计算来说,迁移已经结束了,但负责存储的我们还不能离开。


因为此时数据还在后台持续迁移,因为并发数比较高,有些卷还在迁移排队等待中。我们要在数据全部迁移完成后对每一个卷进行校验检查,确保迁移过程没有任何问题。


凌晨 4 点左右,完成全部工作。


我活动活动胳膊,起身拍拍小浩问:“困吗?”


“刚才迁移过程,我超级紧张,一点都没觉得困。” 小浩眼睛瞪得很大,不过眼白上已经有了不少血丝。


这就是我们的日常工作状态,没事做才会困,当重要的责任落在自己肩上,就只会更加认真专注。


“下班了,回家。”


04:00(次日) 归途


​回家的路上不算太冷清,早餐铺门口蒸包子的笼屉已经冒起白雾,送奶工、快递员已经开始奔波,还有一辆洒水车缓缓开过。



图片来源于网络


这就是一个运维工程师的凌晨 4 点。


做运维很忙、很累,但同样也有相当的收获,接触圈内最牛的专家、学习行业最新的技术、解决问题时成就感满满的“幸福一刻”,以及把知识与经验传承的使命感。


在 XSKY 技术服务部里,就有我的“引路人”,指导我从初出茅庐到独当一面,现在我要在很多个“今天”中让小浩也能快速成长起来。


每一次客户的感谢、每一次技能的提升、每一次问题的解决,这就是我热爱这份工作的原因。


这就是我的故事。


用户头像

还未添加个人签名 2020.05.28 加入

还未添加个人简介

评论

发布
暂无评论
运维工程师小张的日记