启用微调和训练功能
安装集群插件
- 确保已安装
Volcano集群插件。 - 确保已安装
MLflow集群插件(部署该插件需要PostgreSQL)。
从 https://cloud.alauda.cn 或 https://cloud.alauda.io 下载以下插件包,并将这些插件推送到 ACP 平台。
MLFlow:用于监控训练实验的 MLFlow 追踪服务器。安装后,AML 导航栏中将出现“MLFlow”菜单项。
Volcano:使用多种调度器插件调度训练作业,包括 Gang-Scheduling 和 Binpack。
进入“管理员 - Marketplace - Upload Packages”,切换到“Cluster Plugins”标签页,找到已上传的插件,确认其版本已正确同步。
然后进入“管理员 - Marketplace - Cluster Plugins”,定位这些插件,点击右侧“...”按钮,选择“Install”,如有需要填写安装表单,最后点击“Install”将插件添加到当前集群。
启用功能
导航至“管理员 - Clusters - Resources”,在左侧搜索框输入 amlcluster。
点击“Correlated with Cluster”图表,找到 AmlCluster 资源。
在 AmlCluster 资源中,将 spec.values.experimentalFeatures 下的 tuneModels 和 datasets 设置为 true。
- 设置为
true后,左侧导航菜单中会出现“Datasets”项。 - 设置为
true后,左侧导航菜单中会出现“Training”项。 - 设置为
true后,左侧导航菜单中会出现“Fine-Tuning”项。
任务模板
- 自定义模板上传:确保您的自定义微调模板文件完整,并上传至“Task Template”。
- 模板编写指南:有关自定义模板创建说明,请参考 Fine-tuning Template Developing Guide。
下载模板:
下载 alaudadockerhub/training-templates 镜像,然后执行以下命令提取示例模板:
运行时镜像仅供下载使用,请先导入至平台镜像仓库后再使用。
上传模板:
以 finetune-object-detection 为例,操作步骤如下:
- 修改配置文件:定位模板目录中的
config.yaml文件。 - 更新镜像引用:在
config.yaml中更新以下字段:image(训练镜像):将默认训练镜像替换为您 AI 平台镜像仓库中可用的 YOLOv5 训练镜像。tool-image(工具镜像):将默认工具镜像替换为您 AI 平台镜像仓库中可用的数据下载/上传工具镜像。
- 将修改后的
finetune-object-detection目录作为模板上传至 AI 平台模板仓库。
请确保更新后的镜像引用指向训练环境能够成功拉取的镜像。
运行时容器镜像
训练和数据操作依赖特定容器镜像:
- 训练镜像
- 下载用于训练的镜像并上传至本地镜像仓库(部分模板可能需要您自行构建镜像)。
- (可选,快速试用)可拉取并导入提供的 YoloV5 运行时镜像:docker.io/alaudadockerhub/yolov5-runtime:v0 .1.0
- 工具镜像(辅助数据下载和上传)
- 任务中的数据下载和上传操作由工具镜像完成。
- 下载并导入平台提供的通用工具镜像:docker.io/alaudadockerhub/git-tool:v0 .1.0
为任务模板添加 Topics:
为确保模板能在 Alauda AI 平台正确展示,请为模板项目创建以下 Topics:
finetune或trainv2object-detection(表示模板类型)