CodeFlare SDK 教程
本教程演示如何使用 CodeFlare SDK 针对已有的 RayCluster 提交 RayJob。您将学习如何启动 Ray 集群、验证其状态、提交 RayJob 以及管理集群生命周期。
前提条件
- 您已在数据科学集群中安装了
Alauda Build of KubeRay Operator集群插件,详见 安装 Alauda Build of KubeRay Operator。 - 您可以访问 Alauda AI 中的命名空间,创建工作台,且工作台运行的默认工作台镜像包含 CodeFlare SDK,例如 Standard Data Science 笔记本。有关创建工作台的信息,请参见 创建工作台。
- 您已登录 Alauda AI,启动工作台,并登录到 JupyterLab。
演示笔记本
下载演示 Jupyter 笔记本以跟随本教程操作:
在 JupyterLab 页面点击向上箭头按钮上传下载的笔记本文件。
操作步骤
在 JupyterLab 中打开演示笔记本,按照以下步骤操作。每个步骤对应笔记本中的一个章节。
第 1 步:创建 RayCluster
运行前两个代码单元,导入 CodeFlare SDK 并使用 ClusterConfiguration API 创建 Ray 集群。运行前请更新 image 参数为与您的硬件架构兼容的 Ray 集群镜像。如果您的集群无法直接访问互联网,请使用内部镜像仓库中的镜像。
cluster.apply() 调用会提交集群配置并等待其就绪。您可以根据需要调整 timeout 参数。
第 2 步:验证集群状态
运行 cluster.status() 单元。如果集群未立即启动,请多运行几次该单元,直到显示状态为 Ready。
第 3 步:提交 RayJob
运行 RayJob 单元,针对运行中的集群创建并提交作业。请注意以下参数:
job_name:RayJob 的唯一名称。cluster_name:必须与您已有的 RayCluster 名称匹配。entrypoint:执行命令。通常情况下,这应指向一个 Python 训练脚本,而非演示中使用的内联命令。
第 4 步:监控 RayJob
运行 rayjob.status() 单元。该函数根据 RayJob 当前状态输出不同的表格。您可以多次运行该单元以观察状态变化。
第 5 步:清理
作业完成后,运行 cluster.down() 关闭集群。
WARNING
为实现最佳资源管理,集群不再使用时应始终删除 Ray 集群。