模型存储
要部署模型,必须先将模型存储在 Alauda AI 支持的存储类型中。支持的存储类型包括:
- S3 对象存储:最常用的模式。通过 Storage Initializer(InitContainer)在主容器启动前下载数据。
- 持久卷声明(PVC):通过 Storage Initializer 在主容器启动前挂载存储在持久卷上的数据。
- Open Container Initiative (OCI) 容器:在 KServe 中也称为 modelcars。该方式利用容器运行时的分层缓存能力,通过 Sidecar 实现秒级加载。
使用 S3 对象存储进行模型存储
这是最常用的模式。通过带有特定 S3 配置参数注解的 Secret 实现凭证管理。
认证配置
建议为每个项目创建独立的 ServiceAccount 和 Secret。
S3 关键配置参数
- 将
YOUR_BASE64_ENCODED_ACCESS_KEY替换为实际的 Base64 编码 AWS 访问密钥 ID。 - 将
YOUR_BASE64_ENCODED_SECRET_KEY替换为实际的 Base64 编码 AWS 秘密访问密钥。 - 将
your_s3_service_ip:your_s3_port替换为实际的 S3 服务 IP 地址和端口。 - 如果 S3 服务使用 HTTPS,将
serving.kserve.io/s3-usehttps设置为 "1",否则设置为 "0"。
部署推理服务
- 将
Qwen2.5-0.5B-Instruct替换为实际的模型名称。 aml.cpaas.io/runtime-type: vllm指定代码运行时类型。有关自定义推理运行时的更多信息,请参见 Extend Inference Runtimes。- 将
aml-vllm-0.11.2-cpu替换为平台中已安装的运行时名称(对应 ClusterServingRuntime CRD 实例)。 storageUri: s3://models/Qwen2.5-0.5B-Instruct指定模型存储的 S3 桶 URI。serviceAccountName: sa-models指定具有访问 S3 凭证 Secret 权限的服务账户。
使用 OCI 容器进行模型存储
除了将模型存储在 S3 桶或 PVC 中外,还可以将模型存储在 Open Container Initiative (OCI) 容器中。在 KServe 中,使用 OCI 容器部署模型也称为 modelcars。该方式非常适合离线环境和企业内部镜像仓库,如 Quay 或 Harbor。
有关使用 OCI 容器打包和部署模型的详细说明,请参见 Using KServe Modelcar for Model Storage。
使用 PVC 进行模型存储
将模型文件上传到 PVC
部署模型时,可以从已存在的持久卷声明(PVC)中提供模型文件。您可以通过访问运行中的工作台,在 IDE 中将本地模型文件上传到 PVC。
前提条件
-
您可以访问 Alauda AI 监控面板。
-
您可以访问拥有运行中工作台的项目。
-
您已创建持久卷声明(PVC)。
-
工作台已挂载该持久卷(PVC)。
有关创建工作台并挂载 PVC 的操作步骤,请参见 Create Workbench。
-
您已将模型文件保存在本地机器上。
操作步骤
按照以下步骤在工作台中将模型文件上传到 PVC:
-
在 Alauda AI 监控面板中,点击 Workbench 进入工作台列表页面。
-
找到运行中的工作台实例,点击 Connect 按钮进入工作台。
-
在工作台 IDE 中,打开文件浏览器:
- 在 JupyterLab 中,为左侧边栏的 Files 标签。
- 在 code-server 中,为左侧边栏的 Explorer 视图。
-
在文件浏览器中,进入 home 目录。该目录即为挂载的 PVC 根目录。
注意 任何在此目录下创建或上传的文件或文件夹都会持久保存在 PVC 中。
-
(可选)创建新文件夹以组织模型:
- 在文件浏览器中,右键点击 home 目录,选择 New Folder。
- 命名该文件夹(例如 models)。
- 双击进入新建的 models 文件夹。
-
将模型文件上传到当前文件夹:
- 使用 JupyterLab:
- 点击文件浏览器工具栏的 Upload 按钮。
- 在文件选择对话框中,定位并选择本地模型文件,点击 Open。
- 等待上传完成。
- 使用 code-server:
- 直接将模型文件从本地文件管理器拖拽到 code-server 目标文件夹的文件浏览器面板中。
- 等待上传完成。
- 使用 JupyterLab:
验证
确认上传的文件已显示在文件浏览器中对应路径下。
后续步骤
从 PVC 部署模型时,storageUri 需设置为格式 pvc://<pvc-name>/<optional-path>,例如:
pvc://model-pvc— 从 PVC 根目录加载。pvc://model-pvc/models/Qwen2.5-0.5B-Instruct— 从指定子目录加载。
部署推理服务
- 将
Qwen2.5-0.5B-Instruct替换为实际的模型名称。 aml.cpaas.io/runtime-type: vllm指定代码运行时类型。有关自定义推理运行时的更多信息,请参见 Extend Inference Runtimes。- 将
aml-vllm-0.11.2-cpu替换为平台中已安装的运行时名称(对应 ClusterServingRuntime CRD 实例)。 storageUri: pvc://model-pvc指定模型存储的 PVC 名称。