依赖项目
Prometheus Stack 部署指南
kube-prometheus-stack 提供全面的监控功能,包括 GPU、作业生命周期和集群指标,并使用 Rook Ceph RBD 存储后端。
概述
Crater 依赖 kube-prometheus-stack 提供一个强大且可扩展的监控解决方案。它为以下内容提供实时和历史的可观测性:
- 集群资源使用情况(CPU、内存、GPU、存储)
- 作业生命周期指标
- 系统级性能指标
- GPU 健康状况和使用情况(通过 DCGM)
- 应用程序特定的自定义指标
核心组件
- Prometheus: 用于指标收集和告警的时间序列数据库
- Grafana: 仪表板可视化和面向用户的指标面板
- Alertmanager: 可选的告警路由系统(默认禁用)
- DCGM Exporter: 来自
gpu-operator,将 GPU 指标导出到 Prometheus - metrics-server: 提供 Kubernetes 资源指标(CPU、内存)
Crater 将 Grafana 仪表板 直接集成到其前端,为用户提供多维洞察,而无需离开平台 UI。
存储后端
我们使用 Rook Ceph RBD 作为 Prometheus 的持久存储后端。
这确保了:
- 历史指标的高可用性和持久性
- 适用于大规模时间序列摄入的块级性能
📌 确保在安装 Prometheus 栈 之前 正确安装了
rook-ceph并且rook-ceph-rbdStorageClass 可用。
依赖项
为了完全启用 Crater 监控,请确保以下组件 首先安装:
| 依赖项 | 目的 | 参考 |
|---|---|---|
rook-ceph-rbd | 持久存储后端 | docs/rook-ceph.md |
gpu-operator | DCGM Exporter(NVIDIA GPU 指标) | docs/gpu-operator.md |
metrics-server | 基本 CPU/内存资源指标 | docs/metrics-server.md |
Crater 自定义配置
我们提供了修改后的 values.yaml 和子图表配置,用于:
- 启用 DCGM 指标抓取
- 预加载与 Crater 工作负载相关的 Grafana 仪表板集合
- 将 Grafana 服务类型设置为
ClusterIP并使用 Crater 管理的 Ingress - 使用长保留窗口和自定义存储类配置 Prometheus
- 调整镜像仓库和仓库路径
请检查并编辑这些配置以匹配您的集群设置,包括:
- 🔁 StorageClass: 确保设置为
rook-ceph-rbd - 📦 Image Repositories: 如果需要,请匹配您的本地/私有仓库
安装
我们建议使用带有 Crater 预配置值的官方 Helm 图表进行安装。
📖 详细指南:deployments/prometheus-stack/README.md