分析遥测数据以更好地预测问题并实现目标
立即解锁
发布时间: 2025-08-31 00:34:13 阅读量: 19 订阅数: 20 AIGC 


DevOps实践与三步工作法
### 分析遥测数据以更好地预测问题并实现目标
#### 1. 引言
在应用程序和基础设施中,充足的生产遥测数据对于发现和解决问题至关重要。通过分析这些数据,我们可以发现隐藏的差异和微弱的故障信号,从而避免灾难性故障。本文将介绍多种统计技术,并结合案例说明其应用。
#### 2. 网飞的遥测分析案例(2012 年)
网飞致力于为全球在线视频观看者提供最佳体验,这需要强大、可扩展且有弹性的交付基础设施。在管理基于云的视频交付服务时,面临着识别异常节点的挑战。
网飞采用了异常检测技术,具体操作如下:
1. 计算计算集群中节点的“当前正常”状态。
2. 识别不符合该模式的节点,并将其从生产环境中移除。
通过实施服务器异常检测流程,网飞大幅减少了查找故障服务器的工作量和修复时间,提高了服务质量。
#### 3. 使用均值和标准差检测潜在问题
计算生产指标的均值和标准差是一种简单的统计技术。通过这种方式,我们可以创建一个过滤器,检测指标何时与正常情况有显著差异,并配置警报以便采取纠正措施。
然而,警报疲劳是一个严重问题。为了创建更好的警报,我们需要提高信号与噪声的比率,关注真正重要的差异或异常值。例如,分析每日未经授权的登录尝试次数时,如果数据呈高斯分布,我们可以设置当登录尝试次数比均值高出三个标准差时触发警报,此时预计只有 0.3% 的数据点会触发警报。
#### 4. 对不良结果进行监测和警报
我们可以通过分析近期最严重的事件,创建一份遥测数据列表,这些数据可以帮助更早、更快地检测和诊断问题,以及确认有效的修复措施是否已实施。
例如,当 NGINX 网络服务器停止响应请求时,我们可以关注以下领先指标:
- **应用程序层面**:网页加载时间增加等。
- **操作系统层面**:服务器可用内存不足、磁盘空间不足等。
- **数据库层面**:数据库事务时间比正常情况长等。
- **网络层面**:负载均衡器后面的正常运行服务器数量减少等。
对每个指标,我们可以配置警报系统,当它们与均值有足够偏差时通知我们,从而采取纠正措施。
#### 5. 遥测数据非高斯分布时出现的问题
使用均值和标准差检测差异在很多情况下非常有用,但对于许多生产遥测数据集,可能无法产生预期结果。当数据分布不是高斯分布时
0
0
复制全文
相关推荐










