安装 Alauda AI
Alauda AI 现已提供灵活的部署选项。从 Alauda AI 1.4 开始,Serverless 能力作为可选功能提供,如果不需要,可以采用更简化的安装方式。
首先,您需要部署 Alauda AI Operator。这是所有 Alauda AI 产品的核心引擎。默认情况下,它使用 KServe Raw Deployment 模式作为推理后端,尤其推荐用于资源密集型生成式工作负载。该模式提供了一种直接部署模型的方式,并通过利用 Kubernetes 的基础功能,提供了强大且可定制的部署能力。
如果您的使用场景需要 Serverless 功能,例如支持按需缩容至零以优化成本,则可以选择性地安装 Alauda AI Model Serving Operator。该 operator 不属于默认安装内容,可在任何时候添加以启用 Serverless 功能。
推荐的部署选项:对于生成式推理工作负载,推荐使用 Raw Kubernetes Deployment 方式,因为它可对资源分配和扩缩容进行最精细的控制。
目录
下载上传安装 Alauda AI Operator创建 Alauda AI 实例启用 Serverless 功能1. 安装 Alauda AI Model Serving Operator2. 创建 Alauda AI Model Serving 实例自动创建(推荐)手动创建并集成安装后替换 GitLab Service常见问题1. 为 aml-skipper 配置审计输出目录下载
Operator 组件:
-
Alauda AI Operator
Alauda AI Operator 是支撑 Alauda AI 产品的主引擎。它聚焦于两个核心功能:模型管理和推理服务,并提供了一个可轻松扩展的灵活框架。
Download package: aml-operator.xxx.tgz
-
Alauda AI Model Serving Operator
Alauda AI Model Serving Operator 提供无服务器模型推理能力。
Download package: kserveless-operator.xxx.tgz
您可以在 Customer Portal 网站的 Marketplace 中下载名为 “Alauda AI” 和 “Alauda AI Model Serving” 的应用。
上传
我们需要将 Alauda AI 和 Alauda AI Model Serving 都上传到要使用 Alauda AI 的集群中。
下载 violet 工具
首先,如果机器上没有 violet 工具,则需要先下载。
登录 Web Console 并切换到 Administrator 视图:
- 单击 Marketplace / 上架软件包。
- 单击 Download Packaging and Listing Tool。
- 在 Execution Environment 下找到合适的 OS / CPU architecture。
- 单击 Download 下载
violet工具。 - 运行
chmod +x ${PATH_TO_THE_VIOLET_TOOL}使该工具可执行。
上传软件包
请先将以下脚本保存为 uploading-ai-cluster-packages.sh,然后阅读下方注释,更新脚本中的环境变量以完成配置。
${PLATFORM_ADDRESS}是您的 ACP 平台地址。${PLATFORM_ADMIN_USER}是 ACP 平台管理员的用户名。${PLATFORM_ADMIN_PASSWORD}是 ACP 平台管理员的密码。${CLUSTER}是要安装 Alauda AI 组件的集群名称。${AI_CLUSTER_OPERATOR_NAME}是 Alauda AI Cluster Operator 软件包 tarball 的路径。${KSERVELESS_OPERATOR_PKG_NAME}是 KServeless Operator 软件包 tarball 的路径。${REGISTRY_ADDRESS}是外部 registry 的地址。${REGISTRY_USERNAME}是外部 registry 的用户名。${REGISTRY_PASSWORD}是外部 registry 的密码。
配置完成后,执行 bash ./uploading-ai-cluster-packages.sh,以上传 Alauda AI 和 Alauda AI Model Serving operator。
安装 Alauda AI Operator
操作步骤
在 Administrator 视图中:
-
单击 Marketplace / OperatorHub。
-
在控制台顶部的 Cluster 下拉列表中,选择要安装 Alauda AI 的目标集群。
-
选择 Alauda AI,然后单击 Install。
Install Alauda AI 窗口将弹出。
-
然后在 Install Alauda AI 窗口中进行设置。
-
保持 Channel 不变。
-
检查 Version 是否与您要安装的 Alauda AI 版本一致。
-
保持 Installation Location 不变,默认应为
aml-operator。 -
在 Upgrade Strategy 中选择 Manual。
-
单击 Install。
验证
确认 Alauda AI 卡片显示以下状态之一:
Installing:正在安装;请等待其变为Installed。Installed:安装完成。
创建 Alauda AI 实例
安装 Alauda AI Operator 后,您可以创建 Alauda AI 实例。
操作步骤
在 Administrator 视图中:
-
单击 Marketplace / OperatorHub。
-
在控制台顶部的 Cluster 下拉列表中,选择要安装 Alauda AI Operator 的目标集群。
-
选择 Alauda AI,然后单击。
-
在 Alauda AI 页面中,单击选项卡中的 All Instances。
-
单击 Create。
Select Instance Type 窗口将弹出。
-
在 Select Instance Type 窗口中找到 AmlCluster 卡片,然后单击 Create。
将显示 Create AmlCluster 表单。
-
保持 Name 的值为
default不变。 -
从下拉列表中选择 Deploy Flavor:
single-node用于非 HA 部署。ha-cluster用于 HA 集群部署(生产环境推荐)。
-
将 KServe Mode 设置为 Managed。
-
在 Domain 字段中输入有效域名。
INFO该域名由 ingress gateway 用于暴露模型服务。 大多数情况下,您会希望使用通配符域名,例如 *.example.com。
您可以通过更新 Domain Certificate Type 字段来指定以下证书类型:
ProvidedSelfSignedACPDefaultIngress
默认情况下,配置使用
SelfSigned证书类型来保护到集群的 ingress 流量,证书存储在 Domain Certificate Secret 字段中指定的knative-serving-certsecret 中。若要使用您自己提供的证书,请将证书 secret 存储在
istio-systemnamespace 中,然后更新 Domain Certificate Secret 字段的值,并将 Domain Certificate Secret 字段的值改为Provided。 -
在 Serverless Configuration 部分,将 Knative Serving Provider 设置为 Operator;其余参数保持为空。
-
在 Gitlab 部分:
- 在 Base URL 中输入自建 Gitlab 的 URL。
- 在 Admin Token Secret Namespace 中输入
cpaas-system。 - 在 Admin Token Secret Name 中输入
aml-gitlab-admin-token。
-
检查上述配置,然后单击 Create。
验证
检查名为 default 的 AmlCluster 资源中的状态字段:
应返回 Ready:
至此,Alauda AI 的核心能力已成功部署。如果您想快速体验产品,请参阅 快速开始。
启用 Serverless 功能
Serverless 功能是一个可选能力,需要额外部署 operator 和实例。
1. 安装 Alauda AI Model Serving Operator
前提条件
Serverless 能力依赖 Istio Gateway 提供网络功能。请先按照文档安装 Service Mesh。
操作步骤
在 Administrator 视图中:
-
单击 Marketplace / OperatorHub。
-
在控制台顶部的 Cluster 下拉列表中,选择要安装的目标集群。
-
选择 Alauda AI Model Serving,然后单击 Install。
Install Alauda AI Model Serving 窗口将弹出。
-
然后在 Install Alauda AI Model Serving 窗口中进行设置。
-
保持 Channel 不变。
-
检查 Version 是否与您要安装的 Alauda AI Model Serving 版本一致。
-
保持 Installation Location 不变,默认应为
kserveless-operator。 -
在 Upgrade Strategy 中选择 Manual。
-
单击 Install。
验证
确认 Alauda AI Model Serving 卡片显示以下状态之一:
Installing:正在安装;请等待其变为Installed。Installed:安装完成。
2. 创建 Alauda AI Model Serving 实例
安装 Alauda AI Model Serving Operator 后,您可以创建实例。方法有两种:
自动创建(推荐)
您可以通过编辑参数,让 AmlCluster 自动创建并管理该实例。
在 Administrator 视图中:
-
单击 Marketplace / OperatorHub。
-
在控制台顶部的 Cluster 下拉列表中,选择您之前安装
AmlCluster的目标集群。 -
选择 Alauda AI,然后单击。
-
在 Alauda AI 页面中,单击选项卡中的 All Instances。
-
单击名称 default。
-
找到 Actions 下拉列表并选择 update。
将显示 update default 表单。
-
在 Serverless Configuration 部分:
- 将 Knative Serving Provider 设置为
Legacy。 - 将 BuiltIn Knative Serving 设置为
Managed。
- 将 Knative Serving Provider 设置为
-
保持其他所有参数不变。单击 Update。
手动创建并集成
您可以手动创建 KnativeServing (knativeservings.components.aml.dev) 实例。
在 Administrator 视图中:
-
单击 Marketplace / OperatorHub。
-
在控制台顶部的 Cluster 下拉列表中,选择要安装的目标集群。
-
选择 Alauda AI Model Serving,然后单击。
-
在 Alauda AI Model Serving 页面中,单击选项卡中的 All Instances。
-
单击 Create。
Select Instance Type 窗口将弹出。
-
在 Select Instance Type 窗口中找到 KnativeServing 卡片,然后单击 Create。
将显示 Create KnativeServing 表单。
-
保持 Name 的值为
default-knative-serving不变。 -
保持 Knative Serving Namespace 的值为
knative-serving不变。 -
在 Ingress Gateway 部分,配置如下内容:
- 将 Ingress Gateway Istio Revision 设置为与您的 Istio 版本相对应的值(例如
1-22)。 - 在 Domain 字段中设置有效域名。
- 设置合适的 Domain Certificate Type。
INFO有关域名和证书类型配置的详细信息,请参阅相关部分。
- 将 Ingress Gateway Istio Revision 设置为与您的 Istio 版本相对应的值(例如
-
在 Values 部分,配置如下内容:
-
从下拉列表中选择 Deploy Flavor:
single-node用于非 HA 部署。ha-cluster用于 HA 集群部署(生产环境推荐)。
-
将 Global Registry Address 设置为与您的集群匹配
您可以按照以下步骤查找集群的私有 registry 地址:
- 在 Web Console 中,进入 Administrator / Clusters。
- 选择您的目标 cluster。
- 在 Overview 选项卡中,找到 Basic Info 部分的
Private Registry address值。
-
配置 AmlCluster 实例以集成 KnativeServing 实例。
在 AmlCluster 实例更新窗口中,您需要在 Serverless Configuration 部分填写所需参数。
初始安装完成后,您会发现只有 Knative Serving Provider 被设置为 Operator。现在您需要为以下参数提供值:
- APIVersion:
components.aml.dev/v1alpha1 - Kind:
KnativeServing - Name:
default-knative-serving - Namespace 保持为空。
安装后替换 GitLab Service
如果您希望在安装后替换 GitLab Service,请按以下步骤操作:
-
重新配置 GitLab Service 请参阅安装前配置并重新执行其中的步骤。
-
更新 Alauda AI 实例
- 在 Administrator 视图中,进入 Marketplace > OperatorHub
- 从 Cluster 下拉列表中选择目标集群
- 选择 Alauda AI,然后单击 All Instances 选项卡
- 找到 'default' 实例并单击 Update
-
修改 GitLab 配置 在 Update default 表单中:
- 找到 GitLab 部分
- 输入:
- Base URL:新 GitLab 实例的 URL
- Admin Token Secret Namespace:
cpaas-system - Admin Token Secret Name:
aml-gitlab-admin-token
-
重启组件 重启
kubeflownamespace 中的aml-controllerdeployment。 -
刷新平台数据 在 Alauda AI 管理视图中,重新管理所有 namespace。
- 在 Alauda AI 视图中,从 Business View 进入 Admin 视图
- 在 Namespace Management 页面,删除所有现有的已管理 namespace
- 使用 "Managed Namespace" 添加需要 Alauda AI 集成的 namespace
INFO
原始模型不会自动迁移 继续使用这些模型:
- 在新的 GitLab 中重新创建并重新上传,或者
- 手动将模型文件转移到新的 repository
常见问题
1. 为 aml-skipper 配置审计输出目录
默认的审计输出路径为主机上的 /cpaas/audit。但是,在某些操作系统上(例如 MicroOS),主机的根路径是只读的,无法创建 /cpaas 目录。在这种情况下,用户需要修改审计输出路径。
要修改审计输出路径,请更新 AmlCluster 默认资源,并在 spec.values 下添加 amlSkipper.auditLogHostPath.path 配置。例如:
具体路径应与 Alauda Container Platform Log Collector 的采集配置保持一致。