启用微调和训练功能

安装集群插件

  • 确保已安装 Volcano 集群插件。
  • 确保已安装 MLflow 集群插件(部署该插件需要 PostgreSQL)。
InstallPlugin

https://cloud.alauda.cnhttps://cloud.alauda.io 下载以下插件包,并将这些插件推送到 ACP 平台。

MLFlow:用于监控训练实验的 MLFlow 追踪服务器。安装后,AML 导航栏中将出现“MLFlow”菜单项。
Volcano:使用多种调度器插件调度训练作业,包括 Gang-Scheduling 和 Binpack。

# 注意:请根据实际情况替换平台地址、用户名、密码和集群名称。
violet push --platform-address="https://192.168.171.123" \
--platform-username="admin@cpaas.io" \
--platform-password="platform-password" \
--clusters=g1-c1-gpu \
your-downloaded-package-file.tgz

进入“管理员 - Marketplace - Upload Packages”,切换到“Cluster Plugins”标签页,找到已上传的插件,确认其版本已正确同步。
然后进入“管理员 - Marketplace - Cluster Plugins”,定位这些插件,点击右侧“...”按钮,选择“Install”,如有需要填写安装表单,最后点击“Install”将插件添加到当前集群。

启用功能

导航至“管理员 - Clusters - Resources”,在左侧搜索框输入 amlcluster
点击“Correlated with Cluster”图表,找到 AmlCluster 资源。
AmlCluster 资源中,将 spec.values.experimentalFeatures 下的 tuneModelsdatasets 设置为 true

apiVersion: amlclusters.aml.dev/v1alpha2
kind: AmlCluster
metadata:
  name: default
spec:
  components:
    gateway:
      certificate:
        type: SelfSigned
      domain: '*.example.com'
    knativeServing:
      istioConfig:
        controlPlane:
          autoRevisionMode: legacy
      managementState: Managed
      providerType: Legacy
    kserve:
      managementState: Managed
  values:
    buildkitd:
      storage:
        type: emptyDir
    experimentalFeatures:
      datasets: true
      imageBuilder: false
      pretrain: true
      tuneModels: true
    global:
      deployFlavor: single-node
      gitlabAdminTokenSecretRef:
        name: aml-gitlab-admin-token
        namespace: cpaas-system
      gitlabBaseUrl: https://aml-gitlab.alaudatech.net
      mysql:
        database: aml
        host: mysql.kubeflow
        port: 3306
        user: root
  1. 设置为 true 后,左侧导航菜单中会出现“Datasets”项。
  2. 设置为 true 后,左侧导航菜单中会出现“Training”项。
  3. 设置为 true 后,左侧导航菜单中会出现“Fine-Tuning”项。

任务模板

  1. 自定义模板上传:确保您的自定义微调模板文件完整,并上传至“Task Template”。
  2. 模板编写指南:有关自定义模板创建说明,请参考 Fine-tuning Template Developing Guide

下载模板:

下载 alaudadockerhub/training-templates 镜像,然后执行以下命令提取示例模板:

# 在终端执行此命令,确保已安装 nerdctl CLI 工具。
# 完成后,示例模板将保存在当前路径下的 files 目录中。
nerdctl run --rm --net host -v "$PWD:/dst" \
  docker.io/alaudadockerhub/training-templates:20251119-g6a584922 \
  sh -c 'cp -r /files /dst/'
DANGER

运行时镜像仅供下载使用,请先导入至平台镜像仓库后再使用。

模板名称任务类型支持模型适用场景运行时镜像
finetune-object-detection目标检测yolov5(Community PyTorch 版本)适用于图像中高密度、实时的目标定位与分类,应用于工业质检、物流盘点、城市安防、智慧零售、农业监测等场景,实现毫秒级异常检测和计数统计。alaudadockerhub/yolov5-runtime:v0 .1.0
finetune-time-series-forecasting时间序列预测AWS Chronos-Bolt-Small(AutoGluon 封装)零样本预训练大型时间序列模型,基于历史序列输出多步概率预测,适用于零售、能源、金融等领域,无需特征工程,支持分钟级部署。alaudadockerhub/autogluon-chronos-rt:v1 .4.0-0
finetune-image-classification-vit图像分类Google ViT 系列主要用于图像分类、目标检测、图像分割等多种计算机视觉任务。alaudadockerhub/llm-trainer:v1 .4.4
finetune-text-generation-llamafactory文本生成GPT-4o / Llama 系列(OpenAI / Meta 版本)用于生成文本、代码、对话及多模态内容,如聊天 AI、内容创作、代码辅助和个性化推荐系统。alaudadockerhub/llamafactory-runtime:v1 .5.1
training-object-detection-ultralytics目标检测yolov5(Community PyTorch 版本)适用于图像中高密度、实时的目标定位与分类,应用于工业质检、物流盘点、城市安防、智慧零售、农业监测等场景,实现毫秒级异常检测和计数统计。

上传模板:

finetune-object-detection 为例,操作步骤如下:

  1. 修改配置文件:定位模板目录中的 config.yaml 文件。
  2. 更新镜像引用:在 config.yaml 中更新以下字段:
    1. image(训练镜像):将默认训练镜像替换为您 AI 平台镜像仓库中可用的 YOLOv5 训练镜像。
    2. tool-image(工具镜像):将默认工具镜像替换为您 AI 平台镜像仓库中可用的数据下载/上传工具镜像。
  3. 将修改后的 finetune-object-detection 目录作为模板上传至 AI 平台模板仓库。
WARNING

请确保更新后的镜像引用指向训练环境能够成功拉取的镜像。

运行时容器镜像

训练和数据操作依赖特定容器镜像:

  1. 训练镜像
    • 下载用于训练的镜像并上传至本地镜像仓库(部分模板可能需要您自行构建镜像)。
    • (可选,快速试用)可拉取并导入提供的 YoloV5 运行时镜像:docker.io/alaudadockerhub/yolov5-runtime:v0 .1.0
  2. 工具镜像(辅助数据下载和上传)

为任务模板添加 Topics:

为确保模板能在 Alauda AI 平台正确展示,请为模板项目创建以下 Topics:

  1. finetunetrain
  2. v2
  3. object-detection(表示模板类型)