创建 Fine-tuning 任务

准备数据集

Alauda AI Fine-Tuning 任务支持从 S3 存储和 Alauda AI 数据集读取数据。在创建 Fine-Tuning 任务之前,您需要先将数据集上传到 S3 存储和 Alauda AI 数据集。

NOTE

数据集格式应符合任务模板的要求,例如 yoloV5 任务模板需要数据集格式为 coco128,并提供 YAML 配置文件。

如果您使用的是 S3 存储,需要在您的命名空间下创建如下 Secret:

apiVersion: v1
kind: Secret
metadata:
  name: s3-credentials
  namespace: fy-c1
  annotations:
    s3-url: http://minio-service.kubeflow.svc.cluster.local:9000/finetune
    s3-name: test-minio
    s3-path: coco128
  labels:
    aml.cpaas.io/part-of: aml
type: Opaque
stringData:
  AWS_ACCESS_KEY_ID: foo
  AWS_SECRET_ACCESS_KEY: bar
  1. namespace:更改为您当前的命名空间。
  2. s3-url:设置为您的 S3 存储服务端点和桶,例如 https://endpoint:port/bucket
  3. s3-name:显示信息,例如 minIO-1 http://localhost:9000/first-bucket,其中 minIO-1s3-name
  4. s3-path:输入存储桶中文件的位置,指定文件或文件夹。根目录使用 '/'。
  5. AWS_ACCESS_KEY_ID:替换为您的 Access Key ID。
  6. AWS_SECRET_ACCESS_KEY:替换为您的 Secret Access Key。

创建 Fine-Tuning 任务步骤

  1. 在 Alauda AI 中,进入 Model OptimizationFine-Tuning。点击 Create Fine-tuning Task。在弹出对话框中,从下拉列表选择模板,点击 Create
  2. 在 Fine-Tuning 任务创建页面填写表单,然后点击 Create and Run。下表详细说明了各字段信息。

Fine-Tuning 表单字段说明:

名称说明示例
Training Type“LoRA”、“Full Fine-Tuning” 或其他(主要由模板定义)。Lora
Model选择模型名称。可通过输入关键字过滤。单选。必填。yolov5
Model Output“Existing Model Repository”(默认)或 “Create Model Repository”。Existing Model Repository
Training Data“External Storage” 或 “Platform Dataset”。默认只显示 “External Storage”。启用数据集功能开关后,显示两个选项。External Storage
S3 Storage仅显示带有特定标签或注解的 Secrets。以“secret 名称”和“endpoint/bucket”形式列出。minIO-1 http://localhost:9000 /first-bucket
File Path必填。仅在选择 “External Storage” 时可见。输入存储桶中的文件或文件夹路径。根目录使用 '/'。/foo
Distributed Training启动分布式训练。例如,设置为 2 时,将在 2 个 pod 中并行训练,CPU、内存和 GPU 使用量也相应翻倍。1
GPU Acceleration“GPUManager”、“Physical GPU”、“NVIDIA HAMi”等。具体名称和配置从“Extended Resources”读取。GPU 相关和非 GPU 相关资源无区分,均直接列出(目前除 GPU 外无其他扩展资源)。HAMi NVIDIA
StorageFine-tuning 期间,PVC 会被动态创建作为临时存储区,用于下载模型文件、训练数据、生成新模型文件等。建议容量设置为“模型大小 * 2 + 训练数据大小 + 5G”。创建的临时存储区在 Fine-tuning 完成后会自动删除以释放空间。sc-topolvm
Hyper Parameters Configurations添加多个配置组时,会创建多个并行任务,每个任务独立请求表单中填写的资源。

任务状态

任务详情页提供每个任务的全面信息,包括 Basic InfoBasic ModelOutput ModelData ConfigurationsResource ConfigurationHyper Parameters ConfigurationsBasic Info 部分显示任务状态,状态可能为:

  • pending:作业等待调度。
  • aborting:作业因外部因素正在中止。
  • aborted:作业因外部因素已中止。
  • running:至少有最小数量的 pod 正在运行。
  • restarting:作业正在重启。
  • completing:至少有最小数量的 pod 处于完成状态;作业正在执行清理。
  • completed:至少有最小数量的 pod 处于已完成状态;作业已完成清理。
  • terminating:作业因内部因素正在终止,等待 pod 释放资源。
  • terminated:作业因内部因素已终止。
  • failed:作业在最大重试次数后无法启动。

实验追踪

平台通过与 MLflow 集成,内置了训练和 Fine-tuning 任务的实验追踪功能。 同一命名空间内执行的所有任务均记录在以该命名空间命名的单个 MLflow 实验中,每个任务作为单独的运行记录。 配置、指标和输出在执行过程中自动追踪。

训练期间,关键指标会持续记录到 MLflow,您可以在实验追踪标签页查看实时指标仪表盘。 在任务详情页,用户可访问 Tracking 标签,查看指标随时间变化的折线图,如 loss 或其他任务特定指标。 这使用户能够快速评估训练进度、收敛情况及潜在异常,无需手动查看日志。

除了单任务追踪,平台还支持实验对比。 用户可从任务列表中选择多个训练任务,进入对比视图,关键超参数及其他重要配置并排展示。 这有助于理解训练设置变化对模型行为和结果的影响,支持更有针对性的迭代和优化训练策略。

结合基于 MLflow 的指标追踪与平台原生的可视化和对比功能,平台实现了模型训练生命周期中实验的可观测、可对比和可复现。