CodeFlare SDK 教程

本教程演示如何使用 CodeFlare SDK 针对已有的 RayCluster 提交 RayJob。您将学习如何启动 Ray 集群、验证其状态、提交 RayJob 以及管理集群生命周期。

前提条件

您已在数据科学集群中安装了 Alauda Build of KubeRay Operator 集群插件，详见安装 Alauda Build of KubeRay Operator。
您可以访问 Alauda AI 中的命名空间，创建工作台，且工作台运行的默认工作台镜像包含 CodeFlare SDK，例如 Standard Data Science 笔记本。有关创建工作台的信息，请参见创建工作台。
您已登录 Alauda AI，启动工作台，并登录到 JupyterLab。

下载演示 Jupyter 笔记本以跟随本教程操作：

在 JupyterLab 页面点击向上箭头按钮上传下载的笔记本文件。

在 JupyterLab 中打开演示笔记本，按照以下步骤操作。每个步骤对应笔记本中的一个章节。

运行前两个代码单元，导入 CodeFlare SDK 并使用 ClusterConfiguration API 创建 Ray 集群。运行前请更新 image 参数为与您的硬件架构兼容的 Ray 集群镜像。如果您的集群无法直接访问互联网，请使用内部镜像仓库中的镜像。

cluster.apply() 调用会提交集群配置并等待其就绪。您可以根据需要调整 timeout 参数。

运行 cluster.status() 单元。如果集群未立即启动，请多运行几次该单元，直到显示状态为 Ready。

运行 RayJob 单元，针对运行中的集群创建并提交作业。请注意以下参数：

运行 rayjob.status() 单元。该函数根据 RayJob 当前状态输出不同的表格。您可以多次运行该单元以观察状态变化。

作业完成后，运行 cluster.down() 关闭集群。

WARNING

为实现最佳资源管理，集群不再使用时应始终删除 Ray 集群。