介绍
Alauda Build of KubeRay Operator 是一个 Kubernetes 原生的 operator,提供了在 Kubernetes 上运行 Ray 应用的完整解决方案。基于开源的 KubeRay 项目构建,它通过 Kubernetes 自定义资源定义(CRD)简化了 Ray 集群、作业和服务的部署与管理。
Overview
Alauda Build of KubeRay Operator 提供了三个核心 CRD:
- RayCluster:全面管理 Ray 集群的生命周期,包括集群的创建/删除、自动扩缩容和容错。
- RayJob:在集群准备好后自动创建 RayCluster 并提交作业。支持作业完成后的自动清理。
- RayService:管理 Ray Serve 部署,实现零停机升级和高可用的生产级 ML 模型服务。
Key Features
- Autoscaling:根据工作负载需求自动调整 worker 节点数量。
- Heterogeneous Compute:支持 GPU 及其他加速器资源,用于分布式训练和推理。
- Multiple Ray Versions:在同一 Kubernetes 集群中运行不同版本的 Ray。
- Fault Tolerance:提供内置机制处理节点故障和作业重试。
- Kubernetes Integration:无缝集成现有的 Kubernetes 工具和工作流。
- Ecosystem Support:兼容观测工具(Prometheus、Grafana)、队列系统(Kueue、Volcano)和 ingress 控制器。
Use Cases
- Distributed Machine Learning:跨多个节点扩展 ML 训练工作负载。
- Model Serving:使用 Ray Serve 大规模部署和服务 ML 模型。
- Batch Inference:处理大规模数据集的并行推理工作负载。
- Hyperparameter Tuning:使用 Ray Tune 运行分布式超参数优化。
- LLM Inference:部署大型语言模型进行在线推理。
更多详情,请参阅 Ray on Kubernetes。