半碗米饭

乐维百科:什么是IT监控?为什么运维需要监控?

简言之,IT监控是监控IT软硬件运行状况的一套系统,它可以监控服务器、存储、网络设备、操作系统、数据库等等;它不同于我们常见的视频监控,后者多用于监控人、公共空间等。如果说摄像头是视频监控的眼睛,那么IT监控就是IT运维的眼睛。

 

一、什么是IT监控?

 

说到监控,多数人首先想到的大概是我们日常常见的视频监控,比如用来保障家庭安全的私人监控、保障公共场所安全的公共监控,乃至于我们的行车记录仪,都是常见的视频监控。视频监控最明显的一个特征是监控的最前端是一个摄像头,通过摄像头可以将视频画面输出到后端的显示器,以便实时查看监控现场情况,或存储在硬盘中,有情况发生时可以在事后调取录像还原现场事实。

 

我们今天所说的IT监控没有摄像头,也不输出视频画面。

 

IT监控的对象是IT设备,也可以称为IT资源,可以是服务器、网络设备、数据库、存储等等软硬件设施。IT监控系统通过一系列程序和指令,监测并反馈这些IT设备的运行情况,例如可以通过IT监控系统查看服务器连接是否正常、CPU运行负载、存储设备剩余容量等。

 

更具体地说,你可以试想一个场景,或者一个企业,它可以是互联网大厂,可以是大型电信运营商,甚至是12306。在这此企业里,为了保障业务的稳定,通常会部署大量的服务器、存储以及各种各样的中间件、网络设备等。以12306为例,一旦数据库出现异常,消费者就有可能查询不到余票,看不到票价,或者无法支付等。对于大型企业来说,系统出现大面积故障是灾难性的。

 

另一个问题在于,无论是硬件还是软件,CPU、存储器、数据库、服务器,故障是在所难免的,停电、设备异常,甚至仅仅是设备之间的一个接口出现松动,都有可能影响整套系统的正常运行。(因此一般大型企业还会配备所谓的备用系统,Plan B等)

 

二、为什么运维需要监控?

 

既然故障不可避免,那么唯有快速解决故障问题才是王道。也许有人会说,这简单,出现故障,那便找到故障点,解决故障问题就好了,作为保障系统安全稳定的运维人员,应该具备这样的素质。

 

这话没错,但也不完全对。这其中还牵扯到另一个问题——大型企业的系统架构复杂,软硬件设备众多,与之相对的是运维人员相对较少。在动则成千上万IT设备的大型企业中,几乎不可能单纯依靠人力去检查维护IT设施——帮助运维人员发现故障、找到故障点,甚至防范故障产生,这就是IT监控产生的原因。

 

三、IT监控如何提高运维效率?

 

我们从IT运维的简要流程着手——故障产生-发现故障-分析故障原因-定位故障-解决故障。传统运维中,故障产生是一种不可抗力,不可避免,发现困难,并且特别倚重运维人员个人经验;传统IT监控,就是要在故障发生时,提示运维人员故障原因,帮助运维人员快速定位故障点,进而解决故障问题,提高解决故障的效率。

 

实际上,随着大数据、AI等新兴技术的加入,当代运维监控不仅能够在故障产生时快速发现故障、分析故障原因以及定位故障,甚至可以预判故障的产生,防患于未然,进一步提升运维效率。


评论