api_server_dns 和 api_server_direct 告警异常

喝醉酒的小白

于 2025-07-16 17:25:32 发布

阅读量988

点赞数 24

CC 4.0 BY-SA版权

分类专栏： K8s 文章标签： K8s

本文链接：https://blog.csdn.net/hezuijiudexiaobai/article/details/149403380

K8s 专栏收录该内容

423 篇文章

订阅专栏

目录标题

关于你提到的 api_server_dns 和 api_server_direct 告警异常，这是 Kubernetes 运维中常见的核心控制面可用性监控项。以下是详细的 告警意义解释、常见原因分析、排查步骤建议。

🚨 一、这两个告警的含义是什么？

告警名称	含义简述
`api_server_dns`	通过 DNS 名称访问 kube-apiserver 时失败，例如访问 `https://kubernetes.default.svc` 异常
`api_server_direct`	通过 IP 直连 kube-apiserver 时失败，例如访问 `https://<apiserver_ip>:6443` 异常

通常这两个探测都由 Prometheus 黑盒探测器（） 执行，目的是判断：

DNS 解析是否正常（例如 kubernetes.default.svc 解析是否可达）
API Server 是否真正可连接、响应健康请求
TLS 证书是否过期/无效
网络路径是否异常（如 Service IP、NodePort、LB、iptables 异常）

🔍 二、告警场景分析：可能出现的异常类型

✅ `api_server_dns` 告警可能是：

原因	说明
CoreDNS 异常	DNS 无法解析 `kubernetes.default.svc`
kube-dns Pod 崩溃	`coredns` Pod not ready/crashed
kubelet resolv.conf 错误	节点 DNS 配置错误，导致容器内部 DNS 失败
网络插件异常	DNS 请求 UDP 53 被阻断
Blackbox-exporter DNS 配置错误	自身 DNS 无法解析集群内部域名

✅ `api_server_direct` 告警可能是：

原因	说明
apiserver 挂掉	kube-apiserver Pod down 或主节点不可达
TLS 证书异常	CA 过期、服务证书无效或被替换
黑盒探测 IP 配置错误	探测配置的是错误的 IP 或端口
网络断开	探测者到 apiserver IP 路径被防火墙或安全组阻断

🛠 三、排查步骤建议

🧭 Step 1: 确认告警来源与目标地址

查看告警详情（通常由 Prometheus Alertmanager 发出）：
- instance=... 是哪个节点？
- module=http_2xx_dns / module=http_2xx_direct
- target=kubernetes.default.svc.cluster.local 或 https://x.x.x.x:6443
查看是否全部探测失败，还是单节点失败。

🔎 Step 2: 验证 DNS 探测路径（仅针对 `api_server_dns`）

在 blackbox-exporter 所在节点上运行：

dig kubernetes.default.svc.cluster.local @<Cluster_DNS_IP>
nslookup kubernetes.default

进入容器内测试：

kubectl run dns-test --rm -it --image=busybox -- sh
nslookup kubernetes.default

看看解析是否成功；
若失败，进一步检查 CoreDNS 状态：

kubectl -n kube-system get pods -l k8s-app=kube-dns
kubectl -n kube-system logs -l k8s-app=kube-dns

🔎 Step 3: 验证 API Server 直连探测（仅针对 `api_server_direct`）

在黑盒探测器节点运行 curl：

curl -k https://<apiserver_ip>:6443/healthz
curl -k https://<apiserver_ip>:6443/livez

是否返回 ok？
是否是超时、证书问题、拒绝连接？

🔎 Step 4: 检查 apiserver 实例本身

kubectl get pod -n kube-system -l component=kube-apiserver -o wide
kubectl describe pod -n kube-system kube-apiserver-<node>

是否 CrashLoopBackOff？
是否在主节点上 CPU/Mem 压力大？

📊 四、Prometheus 告警配置举例（供参考）

- alert: APIServerDownViaDNS
  expr: probe_success{job="apiserver", module="http_2xx_dns"} == 0
  for: 2m
  labels:
    severity: critical
  annotations:
    summary: "API server via DNS is unreachable"
    description: "Blackbox probe to https://kubernetes.default.svc failed"

- alert: APIServerDownDirect
  expr: probe_success{job="apiserver", module="http_2xx_direct"} == 0
  for: 2m
  labels:
    severity: critical
  annotations:
    summary: "API server via IP is unreachable"
    description: "Blackbox probe to https://<ip>:6443 failed"

✅ 五、如何避免这些告警频繁触发？

方法	说明
CoreDNS 高可用部署	至少部署 2 个副本，配置反亲和
控制面节点健康探测	确保黑盒探测从不同网络路径访问
IP + DNS 双探测配合	保证在单一方式失败时仍有备选
定期证书检查	kubeadm 签发的证书有过期时间，需提前续签
Prometheus target 抑制机制	可避免临时抖动触发告警（例如 `for: 2m`）

✅ 总结

告警	意义	重点排查
api_server_dns	DNS 方式访问 API Server 异常（通常是 DNS 问题）	CoreDNS、DNS 解析链路
api_server_direct	直连 IP 方式访问 API Server 异常	apiserver 状态、网络连通、证书配置

如果你能提供告警的完整信息（Prometheus 表达式、target、探测 IP/域名等），我可以进一步精准协助你定位问题。是否需要我生成一个标准化的排查 checklist 表格？