Gang scheduling
Gang scheduling 是 Alauda Build of Kueue 中基于超时的 All-or-nothing 调度实现。
Gang scheduling 确保一组或一批相关的作业只有在所有所需资源都可用时才开始。Alauda Build of Kueue 通过挂起作业,直到 Alauda Container Platform 集群能够保证容量以同时启动和执行该批次中的所有相关作业,从而实现 gang scheduling。
如果您使用的是昂贵且有限的资源,例如 GPU,gang scheduling 非常重要。Gang scheduling 可以防止作业占用但不使用 GPU,从而提高 GPU 利用率并降低运行成本。Gang scheduling 还可以帮助防止资源分割和死锁等问题。
配置 gang scheduling
gang scheduling 默认启用。作为集群管理员,您可以通过修改 Alauda Build of Kueue 集群插件的部署表单参数来更新超时时间或禁用 gang scheduling。