安装 Alauda AI
Alauda AI 现提供灵活的部署选项。从 Alauda AI 1.4 版本开始,Serverless 功能成为可选项,如果不需要该功能,可以实现更简化的安装。
首先,您需要部署 Alauda AI Operator。这是所有 Alauda AI 产品的核心引擎。默认情况下,它使用 KServe 的 Raw Deployment 模式作为推理后端,特别推荐用于资源密集型的生成式工作负载。该模式提供了简便的模型部署方式,并通过利用 Kubernetes 的基础功能,提供强大且可定制的部署能力。
如果您的使用场景需要 Serverless 功能(如按需零扩缩以优化成本),可以选择安装 Alauda AI Model Serving Operator。该 Operator 不包含在默认安装中,可随时添加以启用 Serverless 功能。
推荐部署选项:对于生成式推理工作负载,推荐使用 Raw Kubernetes Deployment 方式,因为它提供了对资源分配和扩缩的最大控制。
目录
下载上传安装 Alauda AI Operator创建 Alauda AI 实例启用 Serverless 功能1. 安装 Alauda AI Model Serving Operator2. 创建 Alauda AI Model Serving 实例自动创建(推荐)手动创建并集成安装后替换 GitLab 服务常见问题1. 配置 aml-skipper 的审计输出目录下载
Operator 组件:
-
Alauda AI Operator
Alauda AI Operator 是驱动 Alauda AI 产品的主引擎,聚焦于模型管理和推理服务两大核心功能,提供灵活且易于扩展的框架。
下载包:aml-operator.xxx.tgz
-
Alauda AI Model Serving Operator
Alauda AI Model Serving Operator 提供无服务器模型推理功能。
下载包:kserveless-operator.xxx.tgz
您可以在 Customer Portal 网站的 Marketplace 中下载名为 “Alauda AI” 和 “Alauda AI Model Serving” 的应用。
上传
需要将 Alauda AI 和 Alauda AI Model Serving 两个 Operator 上传到将要使用 Alauda AI 的集群中。
下载 violet 工具
首先,如果机器上没有 violet 工具,需要先下载。
登录 Web Console 并切换到 Administrator 视图:
- 点击 Marketplace / Upload Packages。
- 点击 Download Packaging and Listing Tool。
- 在 Execution Environment 下找到对应的操作系统 / CPU 架构。
- 点击 Download 下载
violet工具。 - 运行
chmod +x ${PATH_TO_THE_VIOLET_TOOL}使工具可执行。
上传软件包
先将以下脚本保存为 uploading-ai-cluster-packages.sh,然后根据注释更新脚本中的环境变量以完成配置。
${PLATFORM_ADDRESS}是您的 ACP 平台地址。${PLATFORM_ADMIN_USER}是 ACP 平台管理员用户名。${PLATFORM_ADMIN_PASSWORD}是 ACP 平台管理员密码。${CLUSTER}是要安装 Alauda AI 组件的集群名称。${AI_CLUSTER_OPERATOR_NAME}是 Alauda AI Cluster Operator 包的路径。${KSERVELESS_OPERATOR_PKG_NAME}是 KServeless Operator 包的路径。${REGISTRY_ADDRESS}是外部镜像仓库地址。${REGISTRY_USERNAME}是外部镜像仓库用户名。${REGISTRY_PASSWORD}是外部镜像仓库密码。
配置完成后,执行脚本 bash ./uploading-ai-cluster-packages.sh 上传 Alauda AI 和 Alauda AI Model Serving Operator。
安装 Alauda AI Operator
操作步骤
在 Administrator 视图:
-
点击 Marketplace / OperatorHub。
-
在控制台顶部,从 Cluster 下拉列表中选择要安装 Alauda AI 的目标集群。
-
选择 Alauda AI,然后点击 Install。
会弹出 Install Alauda AI 窗口。
-
在 Install Alauda AI 窗口中:
-
保持 Channel 不变。
-
检查 Version 是否与您要安装的 Alauda AI 版本匹配。
-
保持 Installation Location 不变,默认应为
aml-operator。 -
选择 Manual 作为 Upgrade Strategy。
-
点击 Install。
验证
确认 Alauda AI 卡片显示以下状态之一:
Installing:安装中,等待状态变为Installed。Installed:安装完成。
创建 Alauda AI 实例
安装完成 Alauda AI Operator 后,即可创建 Alauda AI 实例。
操作步骤
在 Administrator 视图:
-
点击 Marketplace / OperatorHub。
-
在控制台顶部,从 Cluster 下拉列表中选择要安装 Alauda AI Operator 的目标集群。
-
选择 Alauda AI,然后点击。
-
在 Alauda AI 页面,点击标签页中的 All Instances。
-
点击 Create。
会弹出 Select Instance Type 窗口。
-
在 Select Instance Type 窗口中找到 AmlCluster 卡片,点击 Create。
会弹出 Create AmlCluster 表单。
-
Name 保持为
default。 -
从下拉框选择 Deploy Flavor:
single-node用于非高可用部署。ha-cluster用于高可用集群部署(生产环境推荐)。
-
将 KServe Mode 设置为 Managed。
-
在 Domain 字段输入有效域名。
INFO该域名用于 ingress gateway 暴露模型服务接口。 通常建议使用通配符域名,如 *.example.com。
可通过更新 Domain Certificate Type 字段指定以下证书类型:
ProvidedSelfSignedACPDefaultIngress
默认配置使用
SelfSigned证书类型保护集群的 ingress 流量,证书存储在 Domain Certificate Secret 字段指定的knative-serving-certSecret 中。若使用自有证书,请将证书 Secret 存储在
istio-system命名空间,并更新 Domain Certificate Secret 字段值,同时将 Domain Certificate Type 字段改为Provided。 -
在 Serverless Configuration 部分,将 Knative Serving Provider 设置为 Operator,其余参数保持为空。
-
在 Gitlab 部分:
- 在 Base URL 输入自托管 Gitlab 的 URL。
- 在 Admin Token Secret Namespace 输入
cpaas-system。 - 在 Admin Token Secret Name 输入
aml-gitlab-admin-token。
-
检查以上配置后,点击 Create。
验证
查看名为 default 的 AmlCluster 资源状态:
应返回 Ready:
至此,Alauda AI 的核心能力已成功部署。如果您想快速体验产品,请参考快速入门。
启用 Serverless 功能
Serverless 功能为可选项,需要额外部署 Operator 和实例。
1. 安装 Alauda AI Model Serving Operator
前置条件
Serverless 功能依赖于 Istio 的 Gateway 网络组件。请先按照文档安装 Service Mesh。
操作步骤
在 Administrator 视图:
-
点击 Marketplace / OperatorHub。
-
在控制台顶部,从 Cluster 下拉列表中选择目标集群。
-
选择 Alauda AI Model Serving,然后点击 Install。
会弹出 Install Alauda AI Model Serving 窗口。
-
在该窗口中:
-
保持 Channel 不变。
-
检查 Version 是否与您要安装的 Alauda AI Model Serving 版本匹配。
-
保持 Installation Location 不变,默认应为
kserveless-operator。 -
选择 Manual 作为 Upgrade Strategy。
-
点击 Install。
验证
确认 Alauda AI Model Serving 卡片显示以下状态之一:
Installing:安装中,等待状态变为Installed。Installed:安装完成。
2. 创建 Alauda AI Model Serving 实例
安装完成 Alauda AI Model Serving Operator 后,可以创建实例,有两种方式:
自动创建(推荐)
通过编辑 AmlCluster 参数,让其实例自动创建并管理。
在 Administrator 视图:
-
点击 Marketplace / OperatorHub。
-
在控制台顶部,从 Cluster 下拉列表中选择之前安装
AmlCluster的目标集群。 -
选择 Alauda AI,然后点击。
-
在 Alauda AI 页面,点击标签页中的 All Instances。
-
点击名称为 default 的实例。
-
找到 Actions 下拉列表,选择更新。
会弹出 update default 表单。
-
在 Serverless Configuration 部分:
- 将 Knative Serving Provider 设置为
Legacy。 - 将 BuiltIn Knative Serving 设置为
Managed。
- 将 Knative Serving Provider 设置为
-
其余参数保持不变,点击 Update。
手动创建并集成
您也可以手动创建 KnativeServing (knativeservings.components.aml.dev) 实例。
在 Administrator 视图:
-
点击 Marketplace / OperatorHub。
-
在控制台顶部,从 Cluster 下拉列表中选择目标集群。
-
选择 Alauda AI Model Serving,然后点击。
-
在 Alauda AI Model Serving 页面,点击标签页中的 All Instances。
-
点击 Create。
会弹出 Select Instance Type 窗口。
-
在该窗口中找到 KnativeServing 卡片,点击 Create。
会弹出 Create KnativeServing 表单。
-
Name 保持为
default-knative-serving。 -
Knative Serving Namespace 保持为
knative-serving。 -
在 Ingress Gateway 部分,配置以下内容:
- 将 Ingress Gateway Istio Revision 设置为对应您 Istio 版本的值(例如
1-22)。 - 为 Domain 字段设置有效域名。
- 设置合适的 Domain Certificate Type。
INFO有关域名和证书类型配置详情,请参考相关章节。
- 将 Ingress Gateway Istio Revision 设置为对应您 Istio 版本的值(例如
-
在 Values 部分,配置以下内容:
-
从下拉框选择 Deploy Flavor:
single-node用于非高可用部署。ha-cluster用于高可用集群部署(生产环境推荐)。
-
将 Global Registry Address 设置为匹配您的集群。
您可以通过以下步骤找到集群的私有镜像仓库地址:
- 在 Web Console 中,进入 Administrator / Clusters。
- 选择目标 cluster。
- 在 Overview 标签页的 Basic Info 部分,找到
Private Registry address值。
-
配置 AmlCluster 实例以集成 KnativeServing 实例。
在 AmlCluster 实例更新窗口,需在 Serverless Configuration 部分填写以下参数。
初始安装后,您会发现只有 Knative Serving Provider 设置为 Operator,现在需要为以下参数提供值:
- APIVersion:
components.aml.dev/v1alpha1 - Kind:
KnativeServing - Name:
default-knative-serving - Namespace 保持为空。
安装后替换 GitLab 服务
如果需要在安装后替换 GitLab 服务,请按以下步骤操作:
-
重新配置 GitLab 服务
参考预安装配置,重新执行相关步骤。 -
更新 Alauda AI 实例
- 在 Administrator 视图,进入 Marketplace > OperatorHub
- 从 Cluster 下拉列表选择目标集群
- 选择 Alauda AI,点击 All Instances 标签页
- 找到名为 default 的实例,点击 Update
-
修改 GitLab 配置
在 Update default 表单中:- 找到 GitLab 部分
- 输入:
- Base URL:新 GitLab 实例的 URL
- Admin Token Secret Namespace:
cpaas-system - Admin Token Secret Name:
aml-gitlab-admin-token
-
重启组件
重启kubeflow命名空间下的aml-controller部署。 -
刷新平台数据
在 Alauda AI 管理视图,重新管理所有命名空间。- 在 Alauda AI 视图中,从 Business View 切换到 Admin 视图
- 在 Namespace Management 页面,删除所有已管理的命名空间
- 使用“Managed Namespace”添加需要集成 Alauda AI 的命名空间
INFO
原有模型不会自动迁移
继续使用这些模型的方法:- 在新 GitLab 中重新创建并上传
- 或手动将模型文件转移到新仓库
常见问题
1. 配置 aml-skipper 的审计输出目录
默认审计输出路径为宿主机上的 /cpaas/audit。但在某些操作系统(如 MicroOS)中,宿主机根路径为只读,无法创建 /cpaas 目录,此时需要修改审计输出路径。
修改方法是更新 AmlCluster 默认资源,在 spec.values 下添加 amlSkipper.auditLogHostPath.path 配置,例如:
具体路径应与 Alauda Container Platform Log Collector 的采集配置保持一致。