介绍

Alauda Build of KubeRay Operator 是一个 Kubernetes 原生的 operator,提供了在 Kubernetes 上运行 Ray 应用的完整解决方案。基于开源的 KubeRay 项目构建,它通过 Kubernetes 自定义资源定义(CRD)简化了 Ray 集群、作业和服务的部署与管理。

Overview

Alauda Build of KubeRay Operator 提供了三个核心 CRD:

  • RayCluster:全面管理 Ray 集群的生命周期,包括集群的创建/删除、自动扩缩容和容错。
  • RayJob:在集群准备好后自动创建 RayCluster 并提交作业。支持作业完成后的自动清理。
  • RayService:管理 Ray Serve 部署,实现零停机升级和高可用的生产级 ML 模型服务。

Key Features

  • Autoscaling:根据工作负载需求自动调整 worker 节点数量。
  • Heterogeneous Compute:支持 GPU 及其他加速器资源,用于分布式训练和推理。
  • Multiple Ray Versions:在同一 Kubernetes 集群中运行不同版本的 Ray。
  • Fault Tolerance:提供内置机制处理节点故障和作业重试。
  • Kubernetes Integration:无缝集成现有的 Kubernetes 工具和工作流。
  • Ecosystem Support:兼容观测工具(Prometheus、Grafana)、队列系统(Kueue、Volcano)和 ingress 控制器。

Use Cases

  • Distributed Machine Learning:跨多个节点扩展 ML 训练工作负载。
  • Model Serving:使用 Ray Serve 大规模部署和服务 ML 模型。
  • Batch Inference:处理大规模数据集的并行推理工作负载。
  • Hyperparameter Tuning:使用 Ray Tune 运行分布式超参数优化。
  • LLM Inference:部署大型语言模型进行在线推理。

更多详情,请参阅 Ray on Kubernetes