Volcano 集成指南

Crater 如何使用 Volcano 批处理调度器进行多实验室 GPU 资源管理及分布式工作负载。

概述

Volcano 是一个为高性能工作负载（如 AI/ML 训练、大数据和科学计算）设计的批处理调度系统。在 Crater 中，Volcano 以公平且抢占的方式管理多个实验室和用户之间的 GPU 调度。

我们选择 Volcano 用于 Crater，是因为它丰富的调度功能、可扩展的插件系统，以及对 分布式训练、公平资源共享 和 任务级控制 的原生支持。

Crater 使用了以下 Volcano 组件：

Crater 面向的是一个学术多租户场景，其中 GPU 集群由多个研究实验室共享。为了管理资源公平性：

这种设计可以实现：

Crater 使用 Volcano 的 Job CRD 支持：

我们还在 Volcano 中启用了以下调度插件：

我们目前正在通过自定义的 Job CRDs 将 vLLM 推理引擎适配到 Volcano 下运行。这使我们能够将大型模型推理视为一个具有集成调度、排队和配额执行的分布式工作负载。

我们还在积极扩展对 LLaMA Factory 的支持，这是 ACT Lab 开发的另一个微调项目。集成工作重点是使用 Volcano 的 Job CRD 启用分布式微调任务，并具备对 GPU 拓扑、资源配额和任务编排的调度感知能力。

我们建议通过 Helm 并使用 Crater 的预配置值来安装 Volcano。