Loading Search...
Crater
依赖项目

Prometheus Stack 部署指南

kube-prometheus-stack 提供全面的监控功能,包括 GPU、作业生命周期和集群指标,并使用 Rook Ceph RBD 存储后端。

概述

Crater 依赖 kube-prometheus-stack 提供一个强大且可扩展的监控解决方案。它为以下内容提供实时和历史的可观测性:

  • 集群资源使用情况(CPU、内存、GPU、存储)
  • 作业生命周期指标
  • 系统级性能指标
  • GPU 健康状况和使用情况(通过 DCGM)
  • 应用程序特定的自定义指标

核心组件

  • Prometheus: 用于指标收集和告警的时间序列数据库
  • Grafana: 仪表板可视化和面向用户的指标面板
  • Alertmanager: 可选的告警路由系统(默认禁用)
  • DCGM Exporter: 来自 gpu-operator,将 GPU 指标导出到 Prometheus
  • metrics-server: 提供 Kubernetes 资源指标(CPU、内存)

Crater 将 Grafana 仪表板 直接集成到其前端,为用户提供多维洞察,而无需离开平台 UI。


存储后端

我们使用 Rook Ceph RBD 作为 Prometheus 的持久存储后端。

这确保了:

  • 历史指标的高可用性和持久性
  • 适用于大规模时间序列摄入的块级性能

📌 确保在安装 Prometheus 栈 之前 正确安装了 rook-ceph 并且 rook-ceph-rbd StorageClass 可用。


依赖项

为了完全启用 Crater 监控,请确保以下组件 首先安装

依赖项目的参考
rook-ceph-rbd持久存储后端docs/rook-ceph.md
gpu-operatorDCGM Exporter(NVIDIA GPU 指标)docs/gpu-operator.md
metrics-server基本 CPU/内存资源指标docs/metrics-server.md

Crater 自定义配置

我们提供了修改后的 values.yaml 和子图表配置,用于:

  • 启用 DCGM 指标抓取
  • 预加载与 Crater 工作负载相关的 Grafana 仪表板集合
  • 将 Grafana 服务类型设置为 ClusterIP 并使用 Crater 管理的 Ingress
  • 使用长保留窗口和自定义存储类配置 Prometheus
  • 调整镜像仓库和仓库路径

请检查并编辑这些配置以匹配您的集群设置,包括:

  • 🔁 StorageClass: 确保设置为 rook-ceph-rbd
  • 📦 Image Repositories: 如果需要,请匹配您的本地/私有仓库

安装

我们建议使用带有 Crater 预配置值的官方 Helm 图表进行安装。

📖 详细指南:deployments/prometheus-stack/README.md

Edit on GitHub