DevOps反馈技术实践:创建遥测以解决问题

立即解锁
发布时间: 2025-08-31 00:34:13 阅读量: 17 订阅数: 15 AIGC
PDF

DevOps实践与三步工作法

### DevOps 反馈技术实践:创建遥测以解决问题 在软件开发和运维过程中,快速发现并解决问题至关重要。通过创建有效的反馈机制和遥测系统,我们可以实现从运维到开发的快速反馈,从而在软件开发生命周期的早期发现并解决问题,提高软件质量和组织的适应能力。 #### 1. 为何需要遥测 在运维工作中,小的变更可能会导致许多意外结果,包括停机和全局故障,影响所有客户。然而,当生产故障和其他问题发生时,我们往往缺乏解决问题所需的信息。例如,在停机期间,我们可能无法确定问题是由于应用程序故障(如代码缺陷)、环境问题(如网络问题、服务器配置问题),还是完全外部的因素(如大规模拒绝服务攻击)。 传统的运维方式可能只是简单地重启服务器,而高绩效组织则采用了“因果文化”,使用生产遥测来理解可能的影响因素,从而更有针对性地解决问题。研究表明,服务水平最高的组织重启服务器的频率比平均水平低 20 倍,“蓝屏死机”的情况也少 5 倍。 #### 2. Etsy 的 DevOps 转型案例 Etsy 在 2009 年开始的 DevOps 转型中,生产监控是关键的一部分。他们将整个技术栈标准化为 LAMP 栈,为了确保在进行重大变更时不影响服务,需要更多的指标来提供信心。 他们使用 Ganglia 收集服务器信息,并将其显示在 Graphite 中。通过在 Graphite 中添加“无与伦比的垂直线技术”,可以更快速地看到部署的意外副作用。到 2011 年,Etsy 已经在应用程序栈的各个层面跟踪了超过 20 万个生产指标,到 2014 年,这一数字超过了 80 万。 高绩效者解决生产事件的速度比同行快得多。在 2015 年的 DevOps 状态报告中,高绩效者解决生产事件的速度比同行快 168 倍;在 2019 年的报告中,精英绩效者解决生产事件的速度比低绩效者快 2604 倍。 #### 3. 创建集中式遥测基础设施 传统的运维监控和日志记录已经存在了多代,但往往存在信息孤岛的问题。开发人员只创建对他们有意义的日志事件,而运维人员只监控环境的上下线状态。当问题发生时,没有人能确定整个系统为何不能按设计运行,或者哪个特定组件出现了故障。 为了能够看到所有问题,我们需要设计和开发应用程序及环境,使其生成足够的遥测数据。现代监控架构通常由以下组件组成: - **数据收集**:在业务逻辑、应用程序和环境层收集事件、日志和指标。日志可以存储在每个服务器上的特定文件中,但最好发送到一个通用服务进行集中管理。在操作系统层面,可以使用工具收集 CPU、内存、磁盘或网络使用情况等指标。云原生计算基金会创建了一个名为 OpenTelemetry 的开放标准,许多开源和商业工具都支持该标准。 - **事件路由器**:负责存储事件和指标,支持可视化、趋势分析、警报和异常检测等功能。通过收集、存储和聚合所有遥测数据,我们可以更好地进行进一步分析和健康检查。常见的工具包括 Prometheus、Honeycomb、DataDog 和 Sensu 等。 将日志转换为指标后,我们可以对其进行统计操作,例如使用异常检测来更早地发现异常和偏差。此外,我们还应该收集部署管道中的遥测数据,以便在问题进入生产环境之前发现并修复错误。 #### 4. 创建有助于生产的应用程序日志遥测 在拥有集中式遥测基础设施后,我们需要确保开发和运维工程师在日常工作中为新的和现有的服务创建足够的生产遥测。每个功能都应该进行检测,以确认其按设计运行并实现预期结果。 不同的团队成员会以不同的方式使用遥测数据。例如,开发人员可能会临时创建更多的遥测数据来诊断工作站上的问题,而运维人员则使用遥测数据来诊断生产问题。为了支持这些不同的使用模式,我们有不同的日志级别: | 日志级别 | 描述 | | ---- | ---- | | DEBUG | 用于调试,通常在生产环境中禁用,但在故障排除时临时启用 | | INFO | 用户驱动或系统特定的操作信息 | | WARN | 可能成为错误的条件信息,可能会触发警报和故障排除 | | ERROR | 错误条件信息,如 API 调用失败、内部错误条件 | | FATAL | 必须终止的情况信息,如网络守护进程无法绑定网络套接字 | 选择正确的日志级别很重要。为了确保服务的可靠和安全运行,我们应该确保所有可能的重要应用程序事件都生成日志条目,并创建日志层次结构类别,以便更轻松地解释和赋予这些日志条目意义。 #### 5. 使用遥测指导问题解决 高绩效者使用科学的方法来解决问题,而不是依赖谣言和传闻。当存在指责文化时,团队可能会避免记录变更和展示遥测数据,从而导致无法创建关于事件发生原因的机构知识,以及无法吸取教训以防止未来再次出现这些错误。 遥测使我们能够使用科学方法来制定关于问题原因和解决方案的假设。在解决问题时,我们可以回答以下问题: - 我们从监控中得到了哪些证据表明问题确实发生了? - 我们的应用程序和环境中哪些相关事件和变更
corwn 最低0.47元/天 解锁专栏
买1年送3月
继续阅读 点击查看下一篇
profit 400次 会员资源下载次数
profit 300万+ 优质博客文章
profit 1000万+ 优质下载资源
profit 1000万+ 优质文库回答
复制全文

相关推荐

史东来

安全技术专家
复旦大学计算机硕士,资深安全技术专家,曾在知名的大型科技公司担任安全技术工程师,负责公司整体安全架构设计和实施。
最低0.47元/天 解锁专栏
买1年送3月
百万级 高质量VIP文章无限畅学
千万级 优质资源任意下载
千万级 优质文库回答免费看

最新推荐

时间序列、因果关系与文本挖掘:从理论到实践

# 时间序列、因果关系与文本挖掘:从理论到实践 ## 1. 时间序列与因果关系 时间在机器学习和分析领域至关重要。在分析时间序列时,我们需要注意常见的陷阱,并掌握相应的解决方法。以全球温度异常和人类二氧化碳排放为例,我们进行了单变量和双变量时间序列分析。同时,运用格兰杰因果检验来判断大气中二氧化碳水平是否会导致地表温度异常。结果发现,从二氧化碳到温度的格兰杰因果检验的 p 值大于 0.05 但小于 0.10,这表明格兰杰因果检验是研究机器学习问题中因果关系的有效工具。 此外,时间序列分析还有很多值得深入探索的领域,如变化点检测、时间序列分解、非线性预测等,这些方法虽不常被视为机器学习的常用

打造零食推送机器人:从代码实现到硬件采购指南

# 打造零食推送机器人:从代码实现到硬件采购指南 ## 1. 创建零食推送应用 在构建零食推送应用时,我们已经完成了部分代码编写,以下是相关代码: ```html {% for item in items %} <button formaction="{{ item['code'] }}"> {{ item['icon'] }}<br> {{ item['code'] }} </button> {% end %} </form> </body> </html> ``` 现在,应用的大部分功能已就绪,可以开始运行并测试其部分功能。操作步骤如下:

Vim与Source命令的高效使用指南

### Vim与Source命令的高效使用指南 #### 1. Vim代码片段管理 在Vim中,我们可以创建代码片段文件,以便在编辑时快速插入常用代码。以下是具体步骤: 1. **创建代码片段存储目录**: ```sh [me@linuxbox ~]$ mkdir ~/.vim/snippets [me@linuxbox ~]$ exit ``` 2. **复制文本并创建代码片段文件**: - 在可视模式下高亮并复制文本。 - 打开新缓冲区创建代码片段文件: ``` :e ~/.vim/snippets/gpl.

Linux终端实用工具与技巧

# Linux 终端实用工具与技巧 ## 1. gnuplot 绘图与导出 ### 1.1 绘制方程图形 任何方程都可以用特定方式绘制图形。例如,一个斜率为 5、y 轴截距为 3 的直线方程,可使用以下命令生成图形: ```bash plot 5*x + 3 ``` ### 1.2 导出图形为图像文件 虽然能在终端显示图表,但多数情况下,我们希望将图表导出为图像,用于报告或演示。可按以下步骤将 gnuplot 设置为导出图像文件: 1. 切换到 png 模式: ```bash set terminal png ``` 2. 指定图像文件的输出位置,否则屏幕将显示未处理的原始 png 数据:

深入理解块层I/O处理与调度及SCSI子系统

### 深入理解块层 I/O 处理与调度及 SCSI 子系统 #### 1. I/O 调度器概述 I/O 调度是块层的关键功能。当读写请求经过虚拟文件系统的各层后,最终会到达块层。块层有多种 I/O 调度器,不同调度器适用于不同场景。 #### 2. 常见 I/O 调度器及其适用场景 | 使用场景 | 推荐的 I/O 调度器 | | --- | --- | | 桌面 GUI、交互式应用和软实时应用(如音频和视频播放器) | BFQ,可保证对时间敏感应用的良好系统响应性和低延迟 | | 传统机械驱动器 | BFQ 或 MQ - deadline,两者都适合较慢的驱动器,Kyber/none

PHP编程基础与常用操作详解

### PHP编程基础与常用操作详解 #### 1. 变量运算与操作符 在PHP中,变量的运算和操作符的使用是基础且重要的部分。例如: ```php $i += 10; // $i is 110 $i = $i / 2; // $i is 55 $j = $i; // both $j and $i are 55 $i = $j % 11; // $i is 0 ``` 最后一行使用了取模运算符 `%`,它的作用是将左操作数除以右操作数并返回余数。这里 `$i` 为 55,55 除以 11 正好 5 次,没有余数,所以结果为 0。 字符串连接运算符是一个句点 `.`,它的作用是将字符串连接在

利用Terraform打造完美AWS基础设施

### 利用 Terraform 打造完美 AWS 基础设施 #### 1. 建立设计框架 在明确基础设施需求后,下一步是建立一个设计框架来指导开发过程。这包括定义用于构建基础设施的架构原则、标准和模式。使用诸如 Terraform 之类的基础设施即代码(IaC)工具,有助于建立一致的设计框架,并确保基础设施达到高标准。 建立设计框架时,有以下重要考虑因素: - 为应用程序或工作负载选择合适的架构风格,如微服务、无服务器或单体架构。 - 根据已定义的需求和设计原则,选择合适的 AWS 服务和组件来构建基础设施。 - 定义基础设施不同组件之间的关系和依赖,以确保它们能平稳高效地协同工作。 -

数据处理与非关系型数据库应用指南

### 数据处理与非关系型数据库应用指南 #### 1. 数据转换与处理 在数据处理过程中,有时需要将 CSV 文件转换为 XML 文档,且 XML 文档可能需符合 XML 模式,甚至要遵循用于商业报告的 XBRL 标准(https://en.wikipedia.org/wiki/XBRL )。 数据转换可以涉及两个或更多数据源,以创建一个新的数据源,其属性需符合所需格式。以下是仅涉及两个数据源 A 和 B 的四种数据转换场景,A、B 数据合并生成数据源 C,且 A、B、C 可以有不同的文件格式: - 包含 A 的所有属性和 B 的所有属性。 - 包含 A 的所有属性和 B 的部分属性。

x64指令集部分指令详解

# x64指令集部分指令详解 ## 1. ROL/ROR指令 ### 1.1 影响的标志位 |标志位|含义| | ---- | ---- | |O|溢出标志(OF)| |D|方向标志(DF)| |I|中断标志(IF)| |T|陷阱标志(TF)| |S|符号标志(SF)| |Z|零标志(ZF)| |A|辅助进位标志(AF)| |P|奇偶标志(PF)| |C|进位标志(CF)| 其中,ROL和ROR指令会影响OF和CF标志位,具体如下: - ROL:每次移位操作时,最左边的位会复制到CF。 - ROR:每次移位操作时,最右边的位会复制到CF。 - OF:只有按1位移位的形式会修改OF,按CL移

VisualStudioCode与Git的源代码控制

# Visual Studio Code与Git的源代码控制 ## 1. 软件开发中的协作与Visual Studio Code的支持 软件开发通常离不开协作,无论你是开发团队的一员、参与开源项目,还是与客户有交互的独立开发者,协作都是必不可少的。微软大力支持协作和开源,因此Visual Studio Code提供了一个基于Git的集成源代码控制系统,并且可以扩展到其他版本控制服务提供商。 这个系统不仅包含了Visual Studio Code中开箱即用的用于源代码协作的集成工具,还可以通过使用一些扩展来提升工作效率。这些扩展能帮助你更好地审查代码,并将工作成果推送到基于Git的服务,如A