自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(375)
  • 收藏
  • 关注

原创 AIOps系列 | 基础理论学习

k8m是一款集 AI 与 Kubernetes 于一体的轻量级控制台工具,专为简化集群管理设计。基于 AMIS 构建,并通过 kom 作为 Kubernetes API 客户端,k8m内置了 Qwen2.5-Coder-7B 模型交互能力,同时支持接入您自己的私有化大模型,比如deepseek模型。k8m 提供集成的 YAML 浏览、编辑和文档查看功能,支持自动翻译 YAML 属性。无论是查找字段含义还是确认配置细节,您都无需再费时费力地搜索,极大提高了工作效率。imgimgk8m。

2025-07-03 10:30:32 612

原创 2025年K8s最新高频面试题,看看你能答对几个?

Ingress:提供集群外部到服务的HTTP/HTTPS访问的规则集合。TraefikHAProxySidecar是指在Pod中使用辅助容器,增强主容器功能。典型例子:Istio中Envoy代理作为Sidecar,实现流量管理、安全策略、监控等功能。Admission Controller在API Server接收请求时对资源进行准入检查,决定是否允许操作。常用的有:PodSecurityPolicy(已弃用,推荐OPA或Kyverno)

2025-07-03 10:10:44 839

原创 基于DaemonSet的Process Exporter监控实践指南

官方出品:Prometheus生态标准exporter轻量级:镜像仅15MB,支持容器/宿主机进程监控核心能力✓ 进程CPU/内存占用✓ 文件描述符数量✓ 线程数与运行时长✓ 支持正则表达式过滤进程通过DaemonSet部署的Process Exporter,配合Prometheus Operator和Grafana看板,可构建覆盖 容器进程-宿主机服务-硬件资源 的全维度监控体系。分阶段实施:从测试环境到生产逐步推进制定监控SLA:明确不同级别进程的监控指标阈值定期演练。

2025-07-03 09:59:54 713

原创 使用DaemonSet实现heapdump文件自动化管理

当前功能已经初步实现,但仍有许多可以优化和扩展的方向。可以考虑扩展支持更多类型的云存储,如腾讯云 COS、AWS S3 等,以满足不同用户的需求。这样一来,用户可以根据自己的实际情况和偏好,选择最适合自己的云存储服务,提高方案的通用性和灵活性。另外在通知内容和方式上,可以进一步丰富通知内容,不仅包含应用名称、环境和文件下载链接,还可以增加更多关于内存问题的详细信息,如内存使用峰值、OOM 发生的时间点等。

2025-07-02 19:28:59 755

原创 SRE 如何提升自己在团队中的影响力?

SRE 作为保障系统稳定运行的关键力量,其价值不可估量。然而,要让这份价值被充分认知,SRE 需要主动出击,从技术、沟通、成果展示、知识传播等多个维度提升自身影响力。提升技术实力是基石,持续学习新技术、精准选型、高效解决难题,让 SRE 在技术领域站稳脚跟,成为团队技术难题的 “救火队长”,赢得尊重。加强沟通协作则是桥梁,主动对接业务需求,在跨团队项目中发挥协调作用,构建良好人际关系网络,使 SRE 的工作与业务紧密融合,成为团队协作的润滑剂。

2025-07-02 19:21:42 781

原创 深入剖析Alertmanager:解锁告警管理的核心逻辑

在 Alertmanager 的配置文件中,通过部分定义抑制规则。和 ****:定义触发抑制的告警的匹配条件。这些告警通常是高等级的告警。用于精确匹配标签值,而用于正则表达式匹配。和 ****:定义将被抑制的告警的匹配条件。这些告警通常是低等级的告警。同样,用于精确匹配,用于正则表达式匹配。**equal**:定义触发抑制的告警和被抑制的告警之间必须匹配的标签。只有当这些标签的值相同时,抑制规则才会生效。Alertmanager作为监控体系中的关键组件,在告警处理方面展现出了强大的功能和高效的实现逻辑。

2025-05-24 16:22:55 646

原创 2025年,SRE在企业中可以做哪些事

在当今时代,AI 浪潮正以汹涌之势席卷各行各业,深刻地改变着我们的生活与工作模式。从医疗领域的智能诊断,到金融行业的风险预测,AI 的身影无处不在,它为各个行业带来了前所未有的机遇与变革。在这场变革中,SRE(Site Reliability Engineering,站点可靠性工程)作为保障企业系统稳定性的关键角色,正面临着全新的挑战与机遇。SRE 的核心职责是确保系统的高可用性、性能以及可扩展性,为业务的稳定运行筑牢根基。

2025-05-24 16:19:00 744

原创 KVM虚拟化之设备透传

公众号:运维开发故事作者:wanger。

2025-05-24 15:57:34 1117

原创 [kubectl-resource-view]: 一款用于查看k8s资源使用情况的插件

一款自己编写的k8s 命令行插件,用于查看k8s node和pod资源的 cpu、 memory、 gpu的request 和limit 使用情况。

2025-05-24 15:37:12 330

原创 服务器又被黑了,可咋办

!大家好,我是乔克,一个爱折腾的运维工程,一个睡觉都被自己丑醒的云原生爱好者。作者:乔克公众号:运维开发故事博客:jokerbai.com。

2025-05-24 14:43:05 933

原创 告警平台V1.0版本

我是 乔克,《运维开发故事》公众号团队中的一员,一线运维农民工,云原生实践者,这里不仅有硬核的技术干货,还有我们对技术的思考和感悟,欢迎关注我们的公众号,期待和你一起成长!灵活配置通知模板:不同的团队和业务对通知模板有不同的需求,这里将通知模板可配置话,便于日常工作的自定义。分派策略:目前仅有按告警级别的分派策略,希望可以基于Label、时间段等进行分派,满足更复杂的告警需求。以上就是目前告警平台实现的主要功能,有些功能不够完善,有些功能还缺失,各位大佬如果有好的建议欢迎留言。

2025-05-24 14:30:44 239

原创 急速Boost,让数据跑得更快 -- Ceph缓存技术全解析

!大家好,我是乔克,一个爱折腾的运维工程,一个睡觉都被自己丑醒的云原生爱好者。作者:乔克公众号:运维开发故事博客:www.jokerbai.com之前写了一个《开发一个接口监控的Prometheus Exporter》,当时只是单纯的实现了一个简单的Exporter,但是基本能满足要求,最近对接口监控的需求做了升级,主要有:接口的管理通过前端页面实现,将数据存入数据库接口的校验除了可以校验状态码,还增加了返回值校验前端页面可以显示当前接口的可用性百分比拨测项可以灵活配置。

2024-08-28 11:13:20 1136

原创 接口拨测 Plus 版本

!大家好,我是乔克,一个爱折腾的运维工程,一个睡觉都被自己丑醒的云原生爱好者。作者:乔克公众号:运维开发故事博客:www.jokerbai.com之前写了一个《开发一个接口监控的Prometheus Exporter》,当时只是单纯的实现了一个简单的Exporter,但是基本能满足要求,最近对接口监控的需求做了升级,主要有:接口的管理通过前端页面实现,将数据存入数据库接口的校验除了可以校验状态码,还增加了返回值校验前端页面可以显示当前接口的可用性百分比拨测项可以灵活配置。

2024-08-28 11:08:02 1103

原创 kvm安装windows虚拟机并安装virtio驱动

JProfiler是一个用于分析运行JVM内部情况的专业工具。在开发中你可以使用它,用于质量保证,也可以解决你的生产系统遇到的问题。方法调用这通常被称为"CPU分析"。方法调用可以通过不同的方式进行测量和可视化, 分析方法调用可以帮助了解你的应用程序正在做什么,并找到提高其性能的方法。分配分析堆上对象的分配、引用链和垃圾回收属于"内存分析"的范畴。这个功能可以让你解决内存泄漏,总之使用更少的内存,分配更少的临时对象。线程和锁线程可以持有锁,例如通过在一个对象上做同步。

2024-08-28 11:03:45 3873

原创 Kubernets的NVIDIA设备插件安装方案实践

JProfiler是一个用于分析运行JVM内部情况的专业工具。在开发中你可以使用它,用于质量保证,也可以解决你的生产系统遇到的问题。方法调用这通常被称为"CPU分析"。方法调用可以通过不同的方式进行测量和可视化, 分析方法调用可以帮助了解你的应用程序正在做什么,并找到提高其性能的方法。分配分析堆上对象的分配、引用链和垃圾回收属于"内存分析"的范畴。这个功能可以让你解决内存泄漏,总之使用更少的内存,分配更少的临时对象。线程和锁线程可以持有锁,例如通过在一个对象上做同步。

2024-08-28 10:41:05 1102

原创 Kubernetes中的事件收集以及监控告警

JProfiler是一个用于分析运行JVM内部情况的专业工具。在开发中你可以使用它,用于质量保证,也可以解决你的生产系统遇到的问题。方法调用这通常被称为"CPU分析"。方法调用可以通过不同的方式进行测量和可视化, 分析方法调用可以帮助了解你的应用程序正在做什么,并找到提高其性能的方法。分配分析堆上对象的分配、引用链和垃圾回收属于"内存分析"的范畴。这个功能可以让你解决内存泄漏,总之使用更少的内存,分配更少的临时对象。线程和锁线程可以持有锁,例如通过在一个对象上做同步。

2024-08-28 10:36:01 654

原创 JVM 性能调优之通过 JProfile 和 JFR 分析系统瓶颈提升系统性能

JProfiler是一个用于分析运行JVM内部情况的专业工具。在开发中你可以使用它,用于质量保证,也可以解决你的生产系统遇到的问题。方法调用这通常被称为"CPU分析"。方法调用可以通过不同的方式进行测量和可视化, 分析方法调用可以帮助了解你的应用程序正在做什么,并找到提高其性能的方法。分配分析堆上对象的分配、引用链和垃圾回收属于"内存分析"的范畴。这个功能可以让你解决内存泄漏,总之使用更少的内存,分配更少的临时对象。线程和锁线程可以持有锁,例如通过在一个对象上做同步。

2024-08-28 10:23:51 883

原创 开发一个接口监控的Prometheus Exporter

在正式开始之前,先简单介绍一下Prometheus以及Prometheus Exporter。Prometheus是CNCF的一个开源监控工具,是近几年非常受欢迎的开源项目之一。在云原生场景下,经常使用它来进行指标监控。Prometheus支持4种指标类型:Counter(计数器):只增不减的指标,比如请求数,每来一个请求,该指标就会加1。Gauge(仪表盘):动态变化的指标,比如CPU,可以看到它的上下波动。

2024-08-28 10:14:51 1222

原创 k8s informer 是如何保证事件不丢失的?

我们常说的Controller他最核心的能力就是能监控到资源的任何变化,也就是声明式概念中保证状态的关键技术 – _Informer,_流程是:Reflector 将对象加入到Delta FIFO queue中。然后 informer 将其 pop 出,加入到 Indexer中,以及 resourceEventHandler。最后就是我们自己的业务逻辑, 即:我们自己先到workqueue中,拿到 key,然后用 key 去Indexer 中换取对象,最后处理对象。然后我们又通过 一个错误的*

2024-01-09 14:43:35 1265

原创 浅谈yarn的任务管理与资源管理

YARN(Yet Another Resource Negotiator)是Hadoop 2.x的一个计算框架,旨在解决Hadoop 1.x中的资源管理和任务调度问题。它的主要目的是将MR1 JobTracker 的两个主要功能(资源管理和作业调度/监控)分离,以便更好地支持多种应用程序,而不是仅支持MapReduce。YARN采用了全新的架构,包括ResourceManager、NodeManager和ApplicationMaster等组件。

2024-01-09 14:38:31 1460

原创 Ceph RBD和QEMU块设备qos测试

微信公众号:运维开发故事作者:wanger。

2024-01-09 13:53:09 1327

原创 应用获取客户端真实IP

!大家好,我是乔克,一个爱折腾的运维工程,一个睡觉都被自己丑醒的云原生爱好者。作者:乔克公众号:运维开发故事博客:www.jokerbai.com。

2024-01-09 13:45:17 1017

原创 Java Steam 常用 API

微信公众号:运维开发故事作者:wanger现在 Java 17 和 Java 11 基本上可以和 Java8 平分 JDK 装机比例。下面是我常用的一些 Strem API 操作。除了分组、转换、排序,如果大家还有更多常用的 API 可以一起留言交流。

2024-01-07 22:50:10 633

原创 GLIBC修复笔记

微信公众号:运维开发故事作者:wanger。

2024-01-07 22:20:10 577

原创 夜莺自定义告警模板

以上就是整体的实现了,这只是领导根据领导的需要做的,每个团队的需求不一样,实现方式肯定也不通,这里只是抛砖引玉。个人建议使用webhook比较好一点,因为可以比较灵活的增加其他的功能,比如告警认领,比如告警抑制,比如告警转发等。另外,最近刚换工作没多久,写的文章少了,但是对技术的热爱并没有减少。最后,求关注。如果你还想看更多优质原创文章,欢迎关注我们的公众号「运维开发故事。

2024-01-07 21:53:57 1771

原创 高并发下 MySQL Statement Cancellation Timer 的线程数暴涨

微信公众号:运维开发故事作者:老郑。

2024-01-06 10:52:34 1472

原创 关于Dockerfile的最佳实践技巧

编写.dockerignore文件容器只运行单个应用将多个RUN指令合并为一个基础镜像的标签不要用latest每个RUN指令后删除多余文件选择合适的基础镜像(alpine版本最好)设置WORKDIR和CMD使用ENTRYPOINT (可选)在entrypoint脚本中使用execCOPY与ADD优先使用前者合理调整COPY与RUN的顺序设置默认的环境变量,映射端口和数据卷使用LABEL设置镜像元数据添加HEALTHCHECK多阶段构建。

2023-07-26 11:14:41 509

原创 nginx反向代理https域名时,请求报错502问题排查

微信公众号:运维开发故事,作者:冬子先生。

2023-07-26 11:01:48 16009

原创 Redis 浮点数累计实现

Redis 浮点数累计操作 INCRBYFLOAT 不适合精度要求比较高的金额计算。Redis 浮点数累计操作 INCRBYFLOAT 也不能平替 BigDecimal 计算,如果一定需要存储可以考虑通过 lua 脚本实现 CAS 进行修改,最终存储为 String 类型的一个结果。Redis 的浮点数虽然做了比较好的优化,但是没有从根本解决计算精度问题。

2023-07-26 10:34:32 497

原创 面了一些运维,发现3个共同点

就我而言,我也是上面3点中的一份子。有的同学可能会说:那你为啥在这里大放厥词?这就是我和别人不同的地方,我喜欢总结,也喜欢根据这些总结来尝试改变,也许结果会不尽人意,但是我很享受这个过程。同时,我也希望和我有相同处境或者感受的人能从中得到一点启发,比如好好优化优化简历,让自己获得更多的面试机会。比如好好钻研一下个别技术,让自己在这方面吊打面试官。不论是哪一种,都要让自己保持向上生长的趋势。时代会淘汰一部分人,不要包括你。最后,求关注。如果你还想看更多优质原创文章,欢迎关注我们的公众号「

2023-07-26 10:26:22 158

原创 流水的运维,铁打的锅

在很多公司,运维的话语权很低,低到离谱,这就导致运维在做事或者推进事情的时候寸步难行。但是,一旦出现问题,运维却是被第一个推出来的,所以“背锅侠”一直被扣在运维头上。那作为运维应该怎么做呢?走出去——不要局限于运维团队内部,要走出去,让业务部门知道运维的价值。走进去——运维知识体系复杂多变,要走进知识内部,深度理解背后的原理,用你的专业来为团队服务。走上去——要提升运维影响力,通过专业的能力和积极的态度争取更多的信任和支持,改变现状,提升地位。最后,说归说,闹归闹,别拿生产开玩笑。

2023-07-26 10:25:46 144

原创 Ceph RADOS Gateway安装

对象存储以独立的对象的形式管理数据,而不是传统的文件层次结构或块存储的形式。每个对象包括数据、元数据和唯一标识符。元数据是描述数据的信息,比如创建日期、类型和其他相关信息。主要用于非结构化数据,例如多媒体内容、备份数据、分析数据等,以及任何需要大规模、易于访问和经济有效的数据存储的应用。Amazon S3、Google Cloud Storage 和 OpenStack Swift 是一些常见的公有云对象存储服务。在私有云或本地环境中,Ceph 和 MinIO 是两个常见的对象存储系统。

2023-07-26 10:16:11 319

原创 如何在Mac、Windows和Docker上本地电脑上搭建AI人工智能绘画工具Stable Diffusion

目前,有诸如Midjourney等人工智能绘画网站可供大家来免费使用,但是由于是免费资源肯定会在机器性能和使用次数方面有所限制,因此如果能将人工智能绘画工具部署在本地运行就会突破机器性能和使用次数等方面的限制。可能所有人类画师都得发出一句“既生瑜,何生亮”的感叹,因为AI 绘画通用算法Stable Diffusion已然超神,无需美术基础,也不用经年累月的刻苦练习,只需要一台电脑。

2023-05-31 11:18:49 4716 1

原创 KeyAffinityExecutor 线程池

微信公众号:运维开发故事,作者:老郑线上案例有一批量的数据,可以按照一个固定的 key 分组并发,但是要保证组内并行的处理。比如:商城中,不同的用户可以并发下单,但是一个用户只能进行顺序的下单。在全局并发的场景下保证局部有序,保证最小事务单元操作的原子性。针对上面的场景我们可以通过 KeyAffinityExecutor (KeyAffinityExecutor 是一个可以按照指定的Key亲和顺序消费的执行器) 来解决这个问题,我们下面一起来了解下 KeyAffinityExecutor。

2023-05-31 11:14:48 334

原创 中兴新支点系统离线安装ceph 16.2.10

微信公众号:运维开发故事,作者:wanger。

2023-05-30 19:25:08 454

原创 【夜莺监控】管理Kubernetes组件指标

以下指标来自阿里云 ACK 官方文档,我觉得整理的比较全,比较细,就贴了一部分。想要了解更多的可以到官方网站去查看。指标类型说明CounterWorkqueue 处理的 Adds 事件的数量。GaugeWorkqueue 当前队列深度。Histogram任务在 Workqueue 中存在的时长。Gauge内存使用量,单位:字节(Byte)。Gauge内存使用率=内存使用量/内存资源上限,百分比形式。GaugeCPU 使用量,单位:核(Core)。Gauge。

2023-05-30 18:24:33 434

原创 三方仓库如何实现Zadig流水线自动触发

!大家好,我是乔克,一个爱折腾的运维工程,一个睡觉都被自己丑醒的云原生爱好者。作者:乔克公众号:运维开发故事博客:www.jokerbai.com最近因为公司的产研调整,决定将代码仓库从本地的 Gitlab 迁移到云效的 Codeup,不是 Gitlab 不够好,而是 Codeup 在度量、安全等方面比原生的 Gitlab 要好,再则公司的产研管理也迁移到了云效,也为了统一化管理。有同学可能会问,都用云效了,为什么不直接用它的 AppStack,还要用 Zadig?

2023-05-30 18:08:58 270

原创 【夜莺监控】从日志中提取指标的瑞士军刀

对于在一个脚本中需要重复使用的表达式,可以将其定义为一个变量,后续可以直接使用变量。这是开发中常用的手段。相比于谷歌的mtailcategraf对mtail做了一些优化,可以更好的处理多日志的问题。而且 categraf 本身集成了很多插件,都可以统一使用它实现。另外,还是相同的问题,假设插件开启比较多,categraf 的具体性能如何以及会不会影响主机的整体性能,这还有待研究。最后,求关注。如果你还想看更多优质原创文章,欢迎关注我们的公众号「运维开发故事。

2023-05-30 18:03:32 509

原创 【夜莺监控】海王——Categraf

Categraf 是一个监控采集 Agent,类似 Telegraf、Grafana-Agent、Datadog-Agent,希望对所有常见监控对象提供监控数据采集能力,采用 All-in-one 的设计,不但支持指标采集,也希望支持日志和调用链路的数据采集。相比于其他采集器,Categraf 的优势在于:支持 remote_write 写入协议,支持将数据写入 promethues、M3DB、VictoriaMetrics、InfluxDB指标数据只采集数值,不采集字符串,标签维持稳态结构。

2023-05-30 17:42:33 1431

原创 【夜莺监控】告警管理,香!

目前夜莺能够比较齐全的实现告警规则的管理,告警渠道分发以及告警消息抑制以及升级,而且 FlashDuty 可以接入不同的集群告警,在大部分企业中以及够用了。只是在测试告警自愈的时候,我没有测试成功。应该是跟我的环境有关系:N9e 整体模块是使用的 Helm 部署到 K8s 中的ibex-server 端却是以二进制的形式直接部署在主机上的不过具体的原因没有排查出来,可用的排查信息太少了。最后,求关注。如果你还想看更多优质原创文章,欢迎关注我们的公众号「运维开发故事。

2023-05-30 15:24:44 577 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除