科技魔方

运维工程师小张的日记

即时新闻

2021年02月25日

  我是一名来自XSKY的运维工程师小张。

  应公司市场部同学的邀请,我今天用日记的方式来向大家讲述我工作中忙碌又普通的一天。

  2020年12月X日,晴,某金融客户变更日。

  8:30 客户变更室巡检

  刚到门口,就看到部门的新人小浩已经在门口朝我挥手了。

  “师傅,早呀!”

  简单向他交代几句,我们就开始进行日常巡检。巡检的内容包括:从界面查看并处理告警、检查集群是否健康、存储池与硬盘的负载与时延、SSD缓存盘的负载和寿命等。

  经历过公司的专业培训,这个过程对我来说并不复杂,但近20个集群,全部处理完也用了不少时间,当然还包括回答小浩同学的各种问题。

  10点30分左右,开始沟通甲方和相关同事,确认当晚的变更事项,整理好变更单,申请堡垒机权限,为晚上的工作做好准备。

  之后我开始处理邮件,操作手册规定“所有变更类操作需要邮件报备部门领导与二线进行检查确认”,而我的工作就是确保每个操作步骤都符合规定,不能出现纰漏。

  12:30 餐厅突发事件

  全部处理完已经到了午休时间,和大家边吃边聊工作,顺便提问检查小浩上午的实践学习情况,但其实他提的问题比我还多。

  “张神,咱们负责的这个大客户都用咱们什么产品呀?主要承载上层哪些业务…”

  虽然不知道为什么我就变成了“张神”,不过给他讲一讲还是有必要的。

  “咱们现在的工作就是保障客户的存储集群正常运行,发现并处理问题,优化存储性能。客户目前使用了我们的EBS块存储和EOS对象存储两种产品,有近20个集群,300多台物理节点,上面承载很多金融业务,工作量不小,更需要打起精神。”

  正聊着,我的手机突然响了,是其它项目的客户。

  “八成是来活儿了。”我边说边示意大家赶紧吃完。

  果不其然,客户的存储集群出现了两个坏盘,不影响使用,可语气很焦急,希望尽快处理。

  “不必担心,XSKY存储属于软件定义的分布式存储,按集群架构,宕掉两个节点也不会丢失数据。有备用盘,我们可以随时更换。”

  挂上电话,我转头对小浩说:“回去仔细看更换硬盘的文档,下午带你操作一次。”

  15:00 办公室远程服务

  变更操作刚得到总部的确认,中午联系的客户已迫不及待地打来电话,新硬盘就位,现在就可以更换。

  我再次和小浩确认了操作步骤:

  1、定位故障硬盘在服务器上的槽位

  2、拔出故障硬盘,插入新硬盘

  3、图形界面勾选新硬盘点击【重建】

  更换两块硬盘、远端机房硬件工程师的联动操作,20分钟完成。客户惊讶于过程竟然如此简单。

  “是的,全过程业务无感知,就像打印机换墨盒,属于常规操作…”

  挂上电话,我开始交代小浩:“明天联系一次客户,更换硬盘后数据会做重平衡,确认重平衡完成、集群健康,任务才算完。”

  小浩一边点头一边做着记录,“咱们的产品也太方便了吧,点点鼠标就搞定了!”

  “研发的同事付出了很多努力。当然,咱们的反馈也很有用,对于产品优化来说,咱们就是眼睛,要注意发现问题,沟通用户、搜集信息并及时反馈,绝不只是解决完问题就完了。”

  16:00 办公室整理文档

  小浩整理自己的工作笔记,我偷看了一眼,写的很认真,不过他为什么在自己的本子上边写边“涂鸦”?

  算了,只要能记清楚,方式不重要。

  公司是有知识库和学习文档的,但每个人的知识面和过程中的感悟是不同的,就像听同一堂课,学生们的笔记也不尽相同,但只要勤于总结、积累,就能把它变成自己的经验。

  看完他,我也打开实施报告、工单忙了起来。

  18:00 大厅休息时间

  晚上还有数据迁移的“硬仗”,我提议大家一会儿出去吃饭。

  “张神,咱们忙了一天了,我是真不想走远路了!”小浩说道。

  另一个同事调侃:“小浩,现在不活动一下,晚上可要盯一夜呢,你见过坐久了,人锈在椅子上吗?”

  他说的没错,这是运维工作最难熬的部分,每周都有几天加班到凌晨三、四点。运维的工作几乎没有什么高光时刻,我们要把“用心”放在每时每刻,确保用户存储的正常运行,重要但也平凡。

  20:00 变更室通宵

  数据迁移开始了。

  这是一场云管、计算、存储、最终用户四方联动配合的重大变更,由云管协调,最终用户远端配合,计算端10个终端同时并发迁移脚本,存储端时刻监控后台日志与迁移进度。

  每迁移完一个应用,云管负责通知最终用户进行验证,如果存储端发现问题,则要及时与计算端进行确认并迅速处理。紧绷的精神状态一直持续近6个小时,直到凌晨2点多钟,迁移脚本全部跑完了,用户端业务全部验证没有问题,此时对于最终用户、云管、计算来说,迁移已经结束了,但负责存储的我们还不能离开。

  因为此时数据还在后台持续迁移,因为并发数比较高,有些卷还在迁移排队等待中。我们要在数据全部迁移完成后对每一个卷进行校验检查,确保迁移过程没有任何问题。

  凌晨4点左右,完成全部工作。

  我活动活动胳膊,起身拍拍小浩问:“困吗?”

  “刚才迁移过程,我超级紧张,一点都没觉得困。” 小浩眼睛瞪得很大,不过眼白上已经有了不少血丝。

  这就是我们的日常工作状态,没事做才会困,当重要的责任落在自己肩上,就只会更加认真专注。

  “下班了,回家。”

  04:00(次日)归途

  回家的路上不算太冷清,早餐铺门口蒸包子的笼屉已经冒起白雾,送奶工、快递员已经开始奔波,还有一辆洒水车缓缓开过。

  这就是一个运维工程师的凌晨4点。

  做运维很忙、很累,但同样也有相当的收获,接触圈内最牛的专家、学习行业最新的技术、解决问题时成就感满满的“幸福一刻”,以及把知识与经验传承的使命感。

  在XSKY技术服务部里,就有我的“引路人”,指导我从初出茅庐到独当一面,现在我要在很多个“今天”中让小浩也能快速成长起来。

  每一次客户的感谢、每一次技能的提升、每一次问题的解决,这就是我热爱这份工作的原因。

  这就是我的故事。

+1

来源:科技魔方

推荐文章