创建 Fine-tuning 任务

准备数据集

Alauda AI Fine-Tuning 任务支持从 S3 存储和 Alauda AI 数据集读取数据。在创建 Fine-Tuning 任务之前，您需要先将数据集上传到 S3 存储和 Alauda AI 数据集。

NOTE

数据集格式应符合任务模板的要求，例如 yoloV5 任务模板需要数据集格式为 coco128，并提供 YAML 配置文件。

如果您使用的是 S3 存储，需要在您的命名空间下创建如下 Secret：

apiVersion: v1
kind: Secret
metadata:
  name: s3-credentials
  namespace: fy-c1
  annotations:
    s3-url: http://minio-service.kubeflow.svc.cluster.local:9000/finetune
    s3-name: test-minio
    s3-path: coco128
  labels:
    aml.cpaas.io/part-of: aml
type: Opaque
stringData:
  AWS_ACCESS_KEY_ID: foo
  AWS_SECRET_ACCESS_KEY: bar

namespace：更改为您当前的命名空间。
s3-url：设置为您的 S3 存储服务端点和桶，例如 https://endpoint:port/bucket。
s3-name：显示信息，例如 minIO-1 http://localhost:9000/first-bucket，其中 minIO-1 是 s3-name。
s3-path：输入存储桶中文件的位置，指定文件或文件夹。根目录使用 '/'。
AWS_ACCESS_KEY_ID：替换为您的 Access Key ID。
AWS_SECRET_ACCESS_KEY：替换为您的 Secret Access Key。

创建 Fine-Tuning 任务步骤

在 Alauda AI 中，进入 Model Optimization → Fine-Tuning。点击 Create Fine-tuning Task。在弹出对话框中，从下拉列表选择模板，点击 Create。
在 Fine-Tuning 任务创建页面填写表单，然后点击 Create and Run。下表详细说明了各字段信息。

Fine-Tuning 表单字段说明：

名称	说明	示例
Training Type	“LoRA”、“Full Fine-Tuning” 或其他（主要由模板定义）。	Lora
Model	选择模型名称。可通过输入关键字过滤。单选。必填。	yolov5
Model Output	“Existing Model Repository”（默认）或 “Create Model Repository”。	Existing Model Repository
Training Data	“External Storage” 或 “Platform Dataset”。默认只显示 “External Storage”。启用数据集功能开关后，显示两个选项。	External Storage
S3 Storage	仅显示带有特定标签或注解的 Secrets。以“secret 名称”和“endpoint/bucket”形式列出。	minIO-1 http://localhost:9000 /first-bucket
File Path	必填。仅在选择 “External Storage” 时可见。输入存储桶中的文件或文件夹路径。根目录使用 '/'。	/foo
Distributed Training	启动分布式训练。例如，设置为 2 时，将在 2 个 pod 中并行训练，CPU、内存和 GPU 使用量也相应翻倍。	1
GPU Acceleration	“GPUManager”、“Physical GPU”、“NVIDIA HAMi”等。具体名称和配置从“Extended Resources”读取。GPU 相关和非 GPU 相关资源无区分，均直接列出（目前除 GPU 外无其他扩展资源）。	HAMi NVIDIA
Storage	Fine-tuning 期间，PVC 会被动态创建作为临时存储区，用于下载模型文件、训练数据、生成新模型文件等。建议容量设置为“模型大小 * 2 + 训练数据大小 + 5G”。创建的临时存储区在 Fine-tuning 完成后会自动删除以释放空间。	sc-topolvm
Hyper Parameters Configurations	添加多个配置组时，会创建多个并行任务，每个任务独立请求表单中填写的资源。

任务状态

任务详情页提供每个任务的全面信息，包括 Basic Info、Basic Model、Output Model、Data Configurations、Resource Configuration 和 Hyper Parameters Configurations。Basic Info 部分显示任务状态，状态可能为：

pending：作业等待调度。
aborting：作业因外部因素正在中止。
aborted：作业因外部因素已中止。
running：至少有最小数量的 pod 正在运行。
restarting：作业正在重启。
completing：至少有最小数量的 pod 处于完成状态；作业正在执行清理。
completed：至少有最小数量的 pod 处于已完成状态；作业已完成清理。
terminating：作业因内部因素正在终止，等待 pod 释放资源。
terminated：作业因内部因素已终止。
failed：作业在最大重试次数后无法启动。

实验追踪

平台通过与 MLflow 集成，内置了训练和 Fine-tuning 任务的实验追踪功能。同一命名空间内执行的所有任务均记录在以该命名空间命名的单个 MLflow 实验中，每个任务作为单独的运行记录。配置、指标和输出在执行过程中自动追踪。

训练期间，关键指标会持续记录到 MLflow，您可以在实验追踪标签页查看实时指标仪表盘。在任务详情页，用户可访问 Tracking 标签，查看指标随时间变化的折线图，如 loss 或其他任务特定指标。这使用户能够快速评估训练进度、收敛情况及潜在异常，无需手动查看日志。

除了单任务追踪，平台还支持实验对比。用户可从任务列表中选择多个训练任务，进入对比视图，关键超参数及其他重要配置并排展示。这有助于理解训练设置变化对模型行为和结果的影响，支持更有针对性的迭代和优化训练策略。

结合基于 MLflow 的指标追踪与平台原生的可视化和对比功能，平台实现了模型训练生命周期中实验的可观测、可对比和可复现。

#创建 Fine-tuning 任务

#目录

#准备数据集

#创建 Fine-Tuning 任务步骤

#任务状态

#实验追踪

创建 Fine-tuning 任务

目录

准备数据集

创建 Fine-Tuning 任务步骤

任务状态

实验追踪