机房运维需要了解东西

用户头像
Spider man
关注
发布于: 2020 年 04 月 24 日
机房运维需要了解东西

前言

我们所说的数据中心,也可以理解为放满服务器,交换机等设备,并且全年24小时一直在运行的地方。那么假如这个地方突然崩了,这对企业来说是一个致命般的打击,所以企业对在机房维护这方面也会比较看重。

而机房里面有很多设备,比如服务器、交换机、ODF、核心ODF等设备,还有非常非常多的网线。

如果想要了解更多一些,可以点击这个链接看看https://blog.csdn.net/vincen123/article/details/100689150



如果你想做机房运维,那么你起码需要知道下面的一些东西。



服务器

之所以把这个放在第一位,是因为一个机房百分之九十的设备都是服务器,而且服务器出故障的频率也是蛮高的,比如服务器的硬盘、内存、CPU、电源等这些硬件出现故障是比较常见的,而这些硬件故障的话一般服务器面板会有相应的告警(如果没有的话就要连接显示器查看了)

一般来说,硬件故障的话是直接更换新的,但要注意规格

比如硬盘,电源故障的话,可以不停机直接更换新的硬盘,但要注意的是新硬盘的容量不能比故障硬盘容量小。

至于内存,CPU这些再服务器内部的硬件则需要先将服务器关机,拔掉其电源线后将服务器拆出来更换,而且是在换之前要知道是故障件的位置,换好后还需要开机进入BIOS界面查看是否识别到,最后服务器没有报错并且登录系统后就说明故障已经恢复了。

假如服务器还没过保修期,那么这些硬件故障基本上都是交给厂商去做的,而运维的话只是带厂商去到故障机器那里,并且做好一个监督的责任,以防厂商会弄错机器。但如果机器都过维保了,那么只能自己带着新配件去换了。

另外要说的就是SN(Service Name)和服务器位置了

SN也就是服务器名字,就是用字母和一串数字组成的名字来作为一台服务器的唯一标识。

服务器位置的标识是用一种易于理解的方式来表名,比如“某某市-某某机房-几楼-几号机房-几号模块-几号机柜-几号机柜”这样的方式,用SN和服务器位置来标识服务器的信息,为的是让机房运维能迅速找到对应的机器,而不至于像大海捞针一样去寻找。



交换机

既然有服务器,那么肯定也少不了交换机。但有些机房运维对交换机的要求并不是那么多,甚至只需要给交换机端口配ip就行了。但一台交换机连接着几十台服务器,也就是说万一交换机挂了,那么跟它所连接的服务器就无法对外提供服务了。



网线

一个机房里除了设备多,还有就是网线也非常多。上面说到交换机连接服务器就是通过网线来进行连接的。但这里的网线跟我们家庭使用的那种蓝色(六类网线)网线不一样,可以简单称作AOC线吧。但AOC线也有不同的速率,分别对应不同的连接。比如服务器和交换机之间的连接,需要的网线速率会小一点,交换机和其他设备连接的网线速率会大一点。

但网线的连接都是分段的,并且每一条线的两端都会打上标签,标注着该线是从哪里连接到哪里。为了减少故障影响范围广,网线不会一条线连接到底的,这样有利于故障排查。很多时候,网线也会出现故障,导致交换机那端无法连接到服务器,这个时候就可以很清楚地知道是交换机-服务器的网线出现故障了。

但因为网线的数量非常庞大,出现故障的频率也相对高一些,所以除了正在使用的网线,一般也会在库房里放置许多备用的网线,以便出故障的时候是有网线可以更换。

假如一个机房有一万多台服务器,那么网线就起码数十万,甚至数百万条吧。数量很庞大,所以在放置网线的时候就要安排好地方放置,否则的话一个机房的网线非常凌乱,这样就比较容易出事故。



机房的架构

既然是机房运维,除了设备以外还要熟悉好整个机房的环境,这也是一个比较重要的东西。一个机房的架构连线说复杂也不复杂,但说简单也不会简单。

比如一个简单的架构跟下图这样的,服务器作为最底层,它的上联是交换机(一台交换机连接着几十台服务器),而交换机的上联是ODF(一台ODF设备连接着几十台交换机),ODF的上联是核心ODF继续往上推就是核心交换机了。而也有专门管理交换机的设备,叫管理网交换机,是用来管理交换机的。设备和设备之间是用网线连接,但用的网线会不一样,比如管理交换机和交换机之间用的是六类网线,但服务器和交换机之间用的是AOC网线。

你也可以将这些关系的最顶层理解成你,核心交换机是你连接其他设备的唯一途径,而服务器是最底层。如果核心交换机出现故障或者不存在,那么你就跟所有设备断开了连接,服务器也无法给你提供服务,那种感觉就像天塌下来一样。所以说核心交换机是一个机房里最重要的设备



简单总结

虽然做机房运维看上去对技术的要求不怎么高,但比较偏向硬件方面的工作,考验的是细心以及对服务器,机房环境这些的熟悉程度,因为如果马虎弄错了就会造成很大的损失。

不同企业对机房运维的要求不一样,也许比我所描述的要简单一些,也有可能比我描述的要难一些,但起码要对服务器硬件,机房架构熟悉,这样才能保证在维护的时候减少出错甚至不出错。

发布于: 2020 年 04 月 24 日 阅读数: 23
用户头像

Spider man

关注

还未添加个人签名 2019.11.19 加入

还未添加个人简介

评论

发布
暂无评论
机房运维需要了解东西