Crater
最佳实践

预排队与用户资源限制

配置预排队、回填作业和用户资源限制

预排队用于在作业进入集群调度前做统一准入控制。管理员可以在管理端的“更多 / 预排队”页面调整提交开关、激活节奏和用户资源限制。

预排队策略

  • 允许提交回填作业:开启后,用户可以创建回填作业。回填作业只使用当前空闲资源,且不支持申请锁定。
  • 启用用户资源限制:开启后,作业提交与激活会检查用户在目标队列中的资源占用上限。
  • 普通作业等待容忍时间:普通作业进入等待状态后,超过该时间仍未激活时会按当前策略继续处理。
  • 激活扫描间隔:后台按该间隔扫描可激活的预排队作业。
  • 每轮最大激活数量:限制单轮扫描最多激活多少个作业,避免一次性放量过大。

用户资源限制

每条限制绑定一个队列,只对该队列中的作业生效。建议为 GPU 队列单独配置限制,CPU 队列按业务需要启用。

  • 启用状态:关闭后保留配置但不参与检查。
  • 候选作业数量:限制单个用户在该队列中可以同时进入候选激活集合的作业数。
  • CPU / 内存上限:留空表示不限制该资源;填写后按用户当前占用与待提交作业请求量合并计算。
  • 加速卡上限:按型号和数量成对配置。未配置的型号不受该条规则限制。

配置完成后,新的作业会先进入预排队;当队列资源、用户限制和作业类型规则都满足时,后台任务会将作业激活到集群。

Edit on GitHub