依赖项目
NVIDIA GPU Operator 部署指南
使用 NVIDIA GPU Operator 在 Kubernetes 集群中启用 GPU 支持,并与 Crater 集成。
概述
NVIDIA GPU Operator 自动部署和管理所有支持 Kubernetes 集群中 GPU 所需的组件。
在 Crater 中,它提供以下功能:
- GPU 驱动安装
- NVIDIA 容器运行时设置
dcgm-exporter
用于 GPU 监控(由 Prometheus stack 使用)- 与 Crater 的任务调度和 GPU 指标显示的平滑集成
Crater 需要 GPU Operator 来确保 GPU 任务正确调度和监控。
安装
我们建议通过 Helm 使用 Crater 预配置的值来安装 GPU Operator。
📦 Helm 值:deployments/gpu-operator/values.yaml
📖 详细指南:deployments/gpu-operator/README.md