Prometheus 入门教程:Kubernetes 监控实践
📌 简介
Prometheus 是一个开源的监控系统,广泛用于 Kubernetes 集群的指标收集与告警。其强大的查询语言(PromQL)和灵活的拉取模型使其成为云原生环境的核心工具。
🛠 安装与配置
安装 Prometheus
- 下载 Prometheus 官方二进制文件
- 配置
prometheus.yml
文件,添加 Kubernetes 相关服务监控 - 示例配置片段:
scrape_configs: - job_name: 'kubernetes-apiservers' kube_api_servers: role: apiserver api_version: v1 - job_name: 'kubernetes-nodes' kube_node: true
集成 kube-state-metrics
- 通过
kubectl
部署 kube-state-metrics - 确保 Prometheus 能拉取节点状态指标
- 通过
📈 监控 Kubernetes 集群
- 核心指标
- 节点资源使用率(CPU/Memory)
- Pod 状态(Running/Failed)
- 服务响应时间(HTTP 请求延迟)
- 告警规则
# 示例:当 CPU 使用率超过 80% 时触发告警 100 * (sum(rate(container_cpu_usage_seconds_total[5m])) / sum(container_spec_cpu_quota{type="container"}))
🎨 可视化数据
- 使用 Grafana 配合 Prometheus 进行可视化:
- 安装 Grafana 并添加 Prometheus 数据源
- 导入预配置的 Kubernetes 模板(如
kubernetes-dashboards
) - 创建仪表盘监控集群健康状态
📚 扩展阅读
- 深入学习 Kubernetes 监控:Monitoring Best Practices
- Prometheus 官方文档:Prometheus Documentation