腾讯云可观测平台-CSDN博客

原创从原理到实践：万字详解 Kubernetes 核心组件与指标监控

文章主要探讨了 Kubernetes 监控的重要性、关键组件及其核心指标，并详细分析了 Kubernetes 指标是如何暴露和采集的。

2025-03-19 15:55:10 987

原创 DeepSeek 大热背后，不容忽视的 AI 应用体验挑战

在 AI 服务日益成为业务核心的今天，传统监控体系在应对 SSE 这类流式传输协议时暴露出明显短板——当数以万计的异步消息在客户端与服务端间持续流动时，如何捕捉每个微小的异常波动？如何在复杂的对话场景中保障用户体验？：凌晨三点，研发负责人小李盯着屏幕上的对话框，焦急地点着“重新生成”，心里反复祈祷能够尽快复现问题场景。数周加班加点部署的在线 DeepSeek-R1 满血版刚刚上线，原本信心满满的团队却被用户反馈炸开了锅——AI 助手在关键时刻“卡住”，长达 30 秒没有任何响应。

2025-02-28 14:43:48 1011

原创客户案例｜某车企建设统一监控平台实践

文章主要介绍腾讯云 Prometheus 在监控出行行业的突出优势与解决方案，为客户运维团队降低了很多成本。

2025-01-23 10:23:28 923

原创 Kubernetes 排障实战：用 Prometheus 提升集群可用性和排障效率

一份超详细的用 Prometheus 监控 Kubernetes 平台指南

2024-12-27 15:47:29 822

原创揭秘可观测利器：腾讯云 APM 深度融合 OpenTelemetry 和 Prometheus，助力高效指标采集与处理

前言腾讯云应用性能监控（APM）作为腾讯云可观测平台（TCOP）旗下专注于应用性能管理的产品，基于链路、指标、日志等可观测数据，提供一站式应用性能管理能力，能够有效加速故障排查，定位架构瓶颈，为业务的健康和稳定保驾护航。Prometheus 是一个功能强大、灵活且扩展性强的开源可观测平台，提供了多维数据模型、丰富的采集能力，以及强大的查询语言。作为 CNCF（Cloud Native Computing Foundation）旗下最重要的开源项目之一，Prometheus 在云原生时代被广泛使用

2024-11-26 16:11:47 1305

原创「可观测」如何为「新能源车企」缓解运维焦虑？

腾讯云可观测平台为车企运维提效的实践案例分享

2024-11-12 15:27:30 883 1

原创一文详解腾讯云可观测平台 APM 采样方案

但在链路的其它环节，调用的响应时间都是非常快的，其中有一部分的 Span 信息会在8秒的慢调用完成前就上报到 APM 服务端，当 APM 服务端收到这部分数据的时候，并不能立即做出决策，而是需要将数据整体缓存一段时间，直到这条链路的所有参与者都成功上报了 Span 信息，才能进行判断。回顾采样的基本原理，头部采样在链路入口做出采样决策的时候，并不需要考虑该链路后续可能发生的情况，因此可以非常简单的引入一套采样算法，任何满足统计学要求的算法都是可行的，比如基于百分比的随机算法，或者参考请求特征的哈希算法。

2024-09-20 16:31:01 1399