模型存储
要部署模型,您必须先将模型存储在 Alauda AI 支持的存储类型中。支持的存储类型包括:
- S3 对象存储:最常用的模式。通过 Storage Initializer(InitContainer)在主容器启动前下载数据。
- Persistent Volume Claim (PVC):通过 Storage Initializer 在主容器启动前挂载存储在持久卷上的数据。
- Open Container Initiative (OCI) 容器:在 KServe 中也称为 modelcars。该方式利用容器运行时的分层缓存能力,通过 Sidecar 实现秒级加载。
使用 S3 对象存储进行模型存储
这是最常用的模式。通过带有特定 S3 配置参数注解的 Secret 实现凭证管理。
认证配置
建议为每个项目创建独立的 ServiceAccount 和 Secret。
S3 关键配置参数
- 将
YOUR_BASE64_ENCODED_ACCESS_KEY替换为您实际的 Base64 编码的 AWS 访问密钥 ID。 - 将
YOUR_BASE64_ENCODED_SECRET_KEY替换为您实际的 Base64 编码的 AWS 秘密访问密钥。 - 将
your_s3_service_ip:your_s3_port替换为您 S3 服务的实际 IP 地址和端口。 - 如果您的 S3 服务使用 HTTPS,则将
serving.kserve.io/s3-usehttps设置为 "1",否则使用 HTTP 设置为 "0"。
部署推理服务
- 将
Qwen2.5-0.5B-Instruct替换为您实际的模型名称。 aml.cpaas.io/runtime-type: vllm指定代码运行时类型。有关自定义推理运行时的更多信息,请参见 Extend Inference Runtimes。- 将
aml-vllm-0.11.2-cpu替换为您平台上已安装的运行时名称(对应 ClusterServingRuntime CRD 实例)。 storageUri: s3://models/Qwen2.5-0.5B-Instruct指定模型存储的 S3 桶 URI。serviceAccountName: sa-models指定具有访问 S3 凭证 Secret 权限的服务账户。
使用 OCI 容器进行模型存储
除了将模型存储在 S3 桶或 PVC 中,您还可以将模型存储在 Open Container Initiative (OCI) 容器中。在 KServe 中,从 OCI 容器部署模型也称为 modelcars。此方式非常适合离线环境和企业内部镜像仓库,如 Quay 或 Harbor。
有关使用 OCI 容器打包和部署模型的详细说明,请参见 Using KServe Modelcar for Model Storage。
使用 PVC 进行模型存储
将模型文件上传到 PVC
部署模型时,可以从已存在的 Persistent Volume Claim (PVC) 中提供模型文件。您可以通过运行中的工作台访问的 IDE,将本地模型文件上传到 PVC。
前提条件
-
您可以访问 Alauda AI 监控面板。
-
您可以访问拥有运行中工作台的项目。
-
您已创建持久卷声明(PVC)。
-
工作台已挂载该持久卷(PVC)。
有关创建工作台和挂载 PVC 的操作步骤,请参见 Create Workbench。
-
您已将模型文件保存在本地计算机。
操作步骤
按照以下步骤将模型文件上传到工作台中的 PVC:
-
在 Alauda AI 监控面板中,点击 Workbench 进入工作台列表页面。
-
找到正在运行的工作台实例,点击 Connect 按钮进入工作台。
-
在工作台 IDE 中,打开文件浏览器:
- 在 JupyterLab 中,位于左侧边栏的 Files 标签。
- 在 code-server 中,位于左侧边栏的 Explorer 视图。
-
在文件浏览器中,进入 home 目录。该目录即为您挂载的 PVC 根目录。
注意 您在此目录下创建或上传的任何文件或文件夹都会保存在 PVC 中。
-
可选:创建新文件夹以便管理模型:
- 在文件浏览器中,右键点击 home 目录,选择 New Folder。
- 命名该文件夹(例如 models)。
- 双击进入新建的 models 文件夹。
-
上传模型文件到当前文件夹:
- 使用 JupyterLab:
- 点击文件浏览器工具栏中的 Upload 按钮。
- 在文件选择对话框中,定位并选择本地模型文件,点击 Open。
- 等待上传完成。
- 使用 code-server:
- 直接将模型文件从本地文件管理器拖拽到 code-server 中目标文件夹的文件浏览器面板。
- 等待上传完成。
- 使用 JupyterLab:
验证
确认上传的文件已显示在文件浏览器中对应路径下。
后续步骤
从 PVC 部署模型时,storageUri 格式为 pvc://<pvc-name>/<optional-path>,例如:
pvc://model-pvc— 从 PVC 根目录加载。pvc://model-pvc/models/Qwen2.5-0.5B-Instruct— 从指定子目录加载。
部署推理服务
- 将
Qwen2.5-0.5B-Instruct替换为您实际的模型名称。 aml.cpaas.io/runtime-type: vllm指定代码运行时类型。有关自定义推理运行时的更多信息,请参见 Extend Inference Runtimes。- 将
aml-vllm-0.11.2-cpu替换为您平台上已安装的运行时名称(对应 ClusterServingRuntime CRD 实例)。 storageUri: pvc://model-pvc指定模型存储的 PVC 名称。