AIOps简介
以下部分内容来源于清华大学裴丹教授发表在《中国计算机学会通讯》第13卷第12期的专栏《基于机器学习的智能运维》。
我们都知道,当代社会生活中的大型软硬件系统为了确保能够安全、可靠地运行,需要有专业的运维人员来进行系统的部署、运行和维护。尤其是随着互联网产业的发展,互联网公司业务的稳定运行和公司的利益密切相关,服务的不稳定甚至崩溃往往会导致巨大的经济损失。
裴丹教授在专栏中简要概括了运维工作发展的历史,在这里总结如下:最早期是手工运维阶段,运维人员需要监控产品的运行状态、性能指标,进行产品上线、服务变更等工作,运维人员的工作量随着产品数量线性增长,大部分工作都是低效的重复,无法满足互联网产业发展的速度;第二个阶段是自动化运维阶段,运维人员开始编写自动化脚本来进行一些重复性的工作,这些脚本可以用于系统监控和在人工监督下进行自动化处理,这一做法一方面减少了人工误操作的可能性,另一方面也大大提高了效率;第三个阶段是运维开发一体化阶段,也就是我们熟知的DevOps。在这一阶段不再硬性区分开发人员和运维人员,也即,由开发人员来进行系统异常的定位分析和处理,这样做的好处是在出现问题后能够迅速找到原因、解决问题。
我们可以从运维工作发展的历史中看到,运维工作是在朝着自动化、高效化方向不断发展的。随着机器学习算法在各个领域的普及,我们不禁会想这样一个问题:运维工作能不能智能化呢?答案当然是可以的,这就是这里我们所要说的AIOps——Artificial Intelli