创建 Fine-tuning 任务
准备数据集
Alauda AI Fine-Tuning 任务支持从 S3 存储和 Alauda AI 数据集读取数据。在创建 Fine-Tuning 任务之前,您需要先将数据集上传到 S3 存储和 Alauda AI 数据集。
数据集格式应符合任务模板的要求,例如 yoloV5 任务模板需要数据集格式为 coco128,并提供 YAML 配置文件。
如果您使用的是 S3 存储,需要在您的命名空间下创建如下 Secret:
- namespace:更改为您当前的命名空间。
- s3-url:设置为您的 S3 存储服务端点和桶,例如
https://endpoint:port/bucket。 - s3-name:显示信息,例如
minIO-1 http://localhost:9000/first-bucket,其中minIO-1是s3-name。 - s3-path:输入存储桶中文件的位置,指定文件或文件夹。根目录使用 '/'。
- AWS_ACCESS_KEY_ID:替换为您的 Access Key ID。
- AWS_SECRET_ACCESS_KEY:替换为您的 Secret Access Key。
创建 Fine-Tuning 任务步骤
- 在 Alauda AI 中,进入
Model Optimization→Fine-Tuning。点击Create Fine-tuning Task。在弹出对话框中,从下拉列表选择模板,点击Create。 - 在 Fine-Tuning 任务创建页面填写表单,然后点击
Create and Run。下表详细说明了各字段信息。
Fine-Tuning 表单字段说明:
任务状态
任务详情页提供每个任务的全面信息,包括 Basic Info、Basic Model、Output Model、Data Configurations、Resource Configuration 和 Hyper Parameters Configurations。Basic Info 部分显示任务状态,状态可能为:
- pending:作业等待调度。
- aborting:作业因外部因素正在中止。
- aborted:作业因外部因素已中止。
- running:至少有最小数量的 pod 正在运行。
- restarting:作业正在重启。
- completing:至少有最小数量的 pod 处于完成状态;作业正在执行清理。
- completed:至少有最小数量的 pod 处于已完成状态;作业已完成清理。
- terminating:作业因内部因素正在终止,等待 pod 释放资源。
- terminated:作业因内部因素已终止。
- failed:作业在最大重试次数后无法启动。
实验追踪
平台通过与 MLflow 集成,内置了训练和 Fine-tuning 任务的实验追踪功能。 同一命名空间内执行的所有任务均记录在以该命名空间命名的单个 MLflow 实验中,每个任务作为单独的运行记录。 配置、指标和输出在执行过程中自动追踪。
训练期间,关键指标会持续记录到 MLflow,您可以在实验追踪标签页查看实时指标仪表盘。
在任务详情页,用户可访问 Tracking 标签,查看指标随时间变化的折线图,如 loss 或其他任务特定指标。
这使用户能够快速评估训练进度、收敛情况及潜在异常,无需手动查看日志。
除了单任务追踪,平台还支持实验对比。 用户可从任务列表中选择多个训练任务,进入对比视图,关键超参数及其他重要配置并排展示。 这有助于理解训练设置变化对模型行为和结果的影响,支持更有针对性的迭代和优化训练策略。
结合基于 MLflow 的指标追踪与平台原生的可视化和对比功能,平台实现了模型训练生命周期中实验的可观测、可对比和可复现。