- 博客(16)
- 收藏
- 关注
原创 从原理到实践:万字详解 Kubernetes 核心组件与指标监控
文章主要探讨了 Kubernetes 监控的重要性、关键组件及其核心指标,并详细分析了 Kubernetes 指标是如何暴露和采集的。
2025-03-19 15:55:10
987
原创 DeepSeek 大热背后,不容忽视的 AI 应用体验挑战
在 AI 服务日益成为业务核心的今天,传统监控体系在应对 SSE 这类流式传输协议时暴露出明显短板——当数以万计的异步消息在客户端与服务端间持续流动时,如何捕捉每个微小的异常波动?如何在复杂的对话场景中保障用户体验?:凌晨三点,研发负责人小李盯着屏幕上的对话框,焦急地点着“重新生成”,心里反复祈祷能够尽快复现问题场景。数周加班加点部署的在线 DeepSeek-R1 满血版刚刚上线,原本信心满满的团队却被用户反馈炸开了锅——AI 助手在关键时刻“卡住”,长达 30 秒没有任何响应。
2025-02-28 14:43:48
1011
原创 客户案例|某车企建设统一监控平台实践
文章主要介绍腾讯云 Prometheus 在监控出行行业的突出优势与解决方案,为客户运维团队降低了很多成本。
2025-01-23 10:23:28
923
原创 Kubernetes 排障实战:用 Prometheus 提升集群可用性和排障效率
一份超详细的用 Prometheus 监控 Kubernetes 平台指南
2024-12-27 15:47:29
822
原创 揭秘可观测利器:腾讯云 APM 深度融合 OpenTelemetry 和 Prometheus,助力高效指标采集与处理
前言腾讯云应用性能监控(APM)作为腾讯云可观测平台(TCOP)旗下专注于应用性能管理的产品,基于链路、指标、日志等可观测数据,提供一站式应用性能管理能力,能够有效加速故障排查,定位架构瓶颈,为业务的健康和稳定保驾护航。Prometheus 是一个功能强大、灵活且扩展性强的开源可观测平台,提供了多维数据模型、丰富的采集能力,以及强大的查询语言。作为 CNCF(Cloud Native Computing Foundation)旗下最重要的开源项目之一,Prometheus 在云原生时代被广泛使用
2024-11-26 16:11:47
1305
原创 一文详解腾讯云可观测平台 APM 采样方案
但在链路的其它环节,调用的响应时间都是非常快的,其中有一部分的 Span 信息会在8秒的慢调用完成前就上报到 APM 服务端,当 APM 服务端收到这部分数据的时候,并不能立即做出决策,而是需要将数据整体缓存一段时间,直到这条链路的所有参与者都成功上报了 Span 信息,才能进行判断。回顾采样的基本原理,头部采样在链路入口做出采样决策的时候,并不需要考虑该链路后续可能发生的情况,因此可以非常简单的引入一套采样算法,任何满足统计学要求的算法都是可行的,比如基于百分比的随机算法,或者参考请求特征的哈希算法。
2024-09-20 16:31:01
1399
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人