介绍

Alauda Build of KubeRay Operator 是一个 Kubernetes 原生的 operator，提供了在 Kubernetes 上运行 Ray 应用的完整解决方案。基于开源的 KubeRay 项目构建，它通过 Kubernetes 自定义资源定义（CRD）简化了 Ray 集群、作业和服务的部署与管理。

Overview

Alauda Build of KubeRay Operator 提供了三个核心 CRD：

RayCluster：全面管理 Ray 集群的生命周期，包括集群的创建/删除、自动扩缩容和容错。
RayJob：在集群准备好后自动创建 RayCluster 并提交作业。支持作业完成后的自动清理。
RayService：管理 Ray Serve 部署，实现零停机升级和高可用的生产级 ML 模型服务。

Key Features

Autoscaling：根据工作负载需求自动调整 worker 节点数量。
Heterogeneous Compute：支持 GPU 及其他加速器资源，用于分布式训练和推理。
Multiple Ray Versions：在同一 Kubernetes 集群中运行不同版本的 Ray。
Fault Tolerance：提供内置机制处理节点故障和作业重试。
Kubernetes Integration：无缝集成现有的 Kubernetes 工具和工作流。
Ecosystem Support：兼容观测工具（Prometheus、Grafana）、队列系统（Kueue、Volcano）和 ingress 控制器。

Use Cases

Distributed Machine Learning：跨多个节点扩展 ML 训练工作负载。
Model Serving：使用 Ray Serve 大规模部署和服务 ML 模型。
Batch Inference：处理大规模数据集的并行推理工作负载。
Hyperparameter Tuning：使用 Ray Tune 运行分布式超参数优化。
LLM Inference：部署大型语言模型进行在线推理。

更多详情，请参阅 Ray on Kubernetes。

#介绍

#目录

#Overview

#Key Features

#Use Cases

介绍

目录

Overview

Key Features

Use Cases