启用微调和训练功能

安装集群插件

确保已安装 Volcano 集群插件。
确保已安装 MLflow 集群插件（部署该插件需要 PostgreSQL）。

InstallPlugin

从 https://cloud.alauda.cn 或 https://cloud.alauda.io 下载以下插件包，并将这些插件推送到 ACP 平台。

MLFlow：用于监控训练实验的 MLFlow 追踪服务器。安装后，AML 导航栏中将出现“MLFlow”菜单项。
Volcano：使用多种调度器插件调度训练作业，包括 Gang-Scheduling 和 Binpack。

# 注意：请根据实际情况替换平台地址、用户名、密码和集群名称。
violet push --platform-address="https://192.168.171.123" \
--platform-username="admin@cpaas.io" \
--platform-password="platform-password" \
--clusters=g1-c1-gpu \
your-downloaded-package-file.tgz

进入“管理员 - Marketplace - Upload Packages”，切换到“Cluster Plugins”标签页，找到已上传的插件，确认其版本已正确同步。
然后进入“管理员 - Marketplace - Cluster Plugins”，定位这些插件，点击右侧“...”按钮，选择“Install”，如有需要填写安装表单，最后点击“Install”将插件添加到当前集群。

启用功能

导航至“管理员 - Clusters - Resources”，在左侧搜索框输入 amlcluster。
点击“Correlated with Cluster”图表，找到 AmlCluster 资源。
在 AmlCluster 资源中，将 spec.values.experimentalFeatures 下的 tuneModels 和 datasets 设置为 true。

apiVersion: amlclusters.aml.dev/v1alpha2
kind: AmlCluster
metadata:
  name: default
spec:
  components:
    gateway:
      certificate:
        type: SelfSigned
      domain: '*.example.com'
    knativeServing:
      istioConfig:
        controlPlane:
          autoRevisionMode: legacy
      managementState: Managed
      providerType: Legacy
    kserve:
      managementState: Managed
  values:
    buildkitd:
      storage:
        type: emptyDir
    experimentalFeatures:
      datasets: true
      imageBuilder: false
      pretrain: true
      tuneModels: true
    global:
      deployFlavor: single-node
      gitlabAdminTokenSecretRef:
        name: aml-gitlab-admin-token
        namespace: cpaas-system
      gitlabBaseUrl: https://aml-gitlab.alaudatech.net
      mysql:
        database: aml
        host: mysql.kubeflow
        port: 3306
        user: root

设置为 true 后，左侧导航菜单中会出现“Datasets”项。
设置为 true 后，左侧导航菜单中会出现“Training”项。
设置为 true 后，左侧导航菜单中会出现“Fine-Tuning”项。

任务模板

自定义模板上传：确保您的自定义微调模板文件完整，并上传至“Task Template”。
模板编写指南：有关自定义模板创建说明，请参考 Fine-tuning Template Developing Guide。

下载模板：

下载 alaudadockerhub/training-templates 镜像，然后执行以下命令提取示例模板：

# 在终端执行此命令，确保已安装 nerdctl CLI 工具。
# 完成后，示例模板将保存在当前路径下的 files 目录中。
nerdctl run --rm --net host -v "$PWD:/dst" \
  docker.io/alaudadockerhub/training-templates:20251119-g6a584922 \
  sh -c 'cp -r /files /dst/'

DANGER

运行时镜像仅供下载使用，请先导入至平台镜像仓库后再使用。

模板名称	任务类型	支持模型	适用场景	运行时镜像
finetune-object-detection	目标检测	yolov5（Community PyTorch 版本）	适用于图像中高密度、实时的目标定位与分类，应用于工业质检、物流盘点、城市安防、智慧零售、农业监测等场景，实现毫秒级异常检测和计数统计。	alaudadockerhub/yolov5-runtime:v0 .1.0
finetune-time-series-forecasting	时间序列预测	AWS Chronos-Bolt-Small（AutoGluon 封装）	零样本预训练大型时间序列模型，基于历史序列输出多步概率预测，适用于零售、能源、金融等领域，无需特征工程，支持分钟级部署。	alaudadockerhub/autogluon-chronos-rt:v1 .4.0-0
finetune-image-classification-vit	图像分类	Google ViT 系列	主要用于图像分类、目标检测、图像分割等多种计算机视觉任务。	alaudadockerhub/llm-trainer:v1 .4.4
finetune-text-generation-llamafactory	文本生成	GPT-4o / Llama 系列（OpenAI / Meta 版本）	用于生成文本、代码、对话及多模态内容，如聊天 AI、内容创作、代码辅助和个性化推荐系统。	alaudadockerhub/llamafactory-runtime:v1 .5.1
training-object-detection-ultralytics	目标检测	yolov5（Community PyTorch 版本）	适用于图像中高密度、实时的目标定位与分类，应用于工业质检、物流盘点、城市安防、智慧零售、农业监测等场景，实现毫秒级异常检测和计数统计。

上传模板：

以 finetune-object-detection 为例，操作步骤如下：

修改配置文件：定位模板目录中的 config.yaml 文件。
更新镜像引用：在 config.yaml 中更新以下字段：
1. image（训练镜像）：将默认训练镜像替换为您 AI 平台镜像仓库中可用的 YOLOv5 训练镜像。
2. tool-image（工具镜像）：将默认工具镜像替换为您 AI 平台镜像仓库中可用的数据下载/上传工具镜像。
将修改后的 finetune-object-detection 目录作为模板上传至 AI 平台模板仓库。

WARNING

请确保更新后的镜像引用指向训练环境能够成功拉取的镜像。

运行时容器镜像

训练和数据操作依赖特定容器镜像：

训练镜像
- 下载用于训练的镜像并上传至本地镜像仓库（部分模板可能需要您自行构建镜像）。
- （可选，快速试用）可拉取并导入提供的 YoloV5 运行时镜像：docker.io/alaudadockerhub/yolov5-runtime:v0 .1.0
工具镜像（辅助数据下载和上传）
- 任务中的数据下载和上传操作由工具镜像完成。
- 下载并导入平台提供的通用工具镜像：docker.io/alaudadockerhub/git-tool:v0 .1.0

为任务模板添加 Topics：

为确保模板能在 Alauda AI 平台正确展示，请为模板项目创建以下 Topics：

finetune 或 train
v2
object-detection（表示模板类型）

#启用微调和训练功能

#目录

#安装集群插件

#启用功能

#任务模板

#运行时容器镜像

启用微调和训练功能

目录

安装集群插件

启用功能

任务模板

运行时容器镜像