依赖项目

Prometheus Stack 部署指南

kube-prometheus-stack 提供全面的监控功能，包括 GPU、作业生命周期和集群指标，并使用 Rook Ceph RBD 存储后端。

概述

Crater 依赖 kube-prometheus-stack 提供一个强大且可扩展的监控解决方案。它为以下内容提供实时和历史的可观测性：

集群资源使用情况（CPU、内存、GPU、存储）
作业生命周期指标
系统级性能指标
GPU 健康状况和使用情况（通过 DCGM）
应用程序特定的自定义指标

核心组件

Prometheus: 用于指标收集和告警的时间序列数据库
Grafana: 仪表板可视化和面向用户的指标面板
Alertmanager: 可选的告警路由系统（默认禁用）
DCGM Exporter: 来自 gpu-operator，将 GPU 指标导出到 Prometheus
metrics-server: 提供 Kubernetes 资源指标（CPU、内存）

Crater 将 Grafana 仪表板 直接集成到其前端，为用户提供多维洞察，而无需离开平台 UI。

存储后端

我们使用 Rook Ceph RBD 作为 Prometheus 的持久存储后端。

这确保了：

历史指标的高可用性和持久性
适用于大规模时间序列摄入的块级性能

📌 确保在安装 Prometheus 栈之前正确安装了 rook-ceph 并且 rook-ceph-rbd StorageClass 可用。

依赖项

为了完全启用 Crater 监控，请确保以下组件 首先安装：

依赖项	目的	参考
`rook-ceph-rbd`	持久存储后端	docs/rook-ceph.md
`gpu-operator`	DCGM Exporter（NVIDIA GPU 指标）	docs/gpu-operator.md
`metrics-server`	基本 CPU/内存资源指标	docs/metrics-server.md

Crater 自定义配置

我们提供了修改后的 values.yaml 和子图表配置，用于：

启用 DCGM 指标抓取
预加载与 Crater 工作负载相关的 Grafana 仪表板集合
将 Grafana 服务类型设置为 ClusterIP 并使用 Crater 管理的 Ingress
使用长保留窗口和自定义存储类配置 Prometheus
调整镜像仓库和仓库路径

请检查并编辑这些配置以匹配您的集群设置，包括：

🔁 StorageClass: 确保设置为 rook-ceph-rbd
📦 Image Repositories: 如果需要，请匹配您的本地/私有仓库

安装

我们建议使用带有 Crater 预配置值的官方 Helm 图表进行安装。

📖 详细指南：deployments/prometheus-stack/README.md

OpenEBS 部署指南

OpenEBS 在 Crater 中用于通过 Local PV HostPath 卷管理本地持久存储，从而实现高效的节点本地存储管理。

存储架构

Crater 使用混合存储架构来应对高吞吐量的本地工作负载以及跨 Pod 和节点的持久共享数据访问。本文档概述了集群中使用的存储解决方案。

目录

Crater 自定义配置