安装 Alauda AI
Alauda AI 现在提供灵活的部署选项。从 Alauda AI 1.4 开始,Knative 功能变为可选特性,如果不需要,可以采用更精简的安装方式。
首先,你需要部署 Alauda AI Operator。它是所有 Alauda AI 产品的核心引擎。默认情况下,它使用 KServe Standard 模式作为推理后端,该模式尤其推荐用于资源密集型生成式工作负载。通过利用基础的 Kubernetes 功能,这种模式提供了一种直接的模型部署方式,并提供强大且可定制的部署能力。
如果你的使用场景需要 Knative 功能,例如支持为节省成本而进行的 按需缩容至零 等高级特性,你可以选择安装 Knative Operator。该 operator 不属于默认安装内容,可以在任何时候添加以启用 Knative 功能。
推荐的部署选项:对于生成式推理工作负载,推荐使用 Standard 方式(此前称为 RawKubernetes Deployment),因为它能对资源分配和扩缩容提供最强的控制能力。
目录
下载上传安装 Alauda AI Operator安装 Alauda Build of KServe Operator启用 Knative 功能1. 安装 Knative Operator2. 创建 Knative Serving 实例创建 Alauda AI 实例常见问题1. 为 aml-skipper 配置审计输出目录下载
Operator 组件:
-
Alauda AI Operator
Alauda AI Operator 是驱动 Alauda AI 产品的主引擎。它聚焦两个核心功能:模型管理和推理服务,并提供一个可轻松扩展的灵活框架。
下载包:aml-operator.xxx.tgz
-
Knative Operator
Knative Operator 提供 serverless 模型推理。
下载包:knative-operator.ALL.v1.x.x-yymmdd.tgz
你可以从 customer portal 网站上的 Marketplace 下载名为 'Alauda AI' 和 'Knative Operator' 的应用。
上传
我们需要将 Alauda AI 和 Knative Operator 都上传到要使用 Alauda AI 的集群中。
下载 violet 工具
首先,如果机器上没有 violet 工具,需要先下载它。
登录 Web Console 并切换到 Administrator 视图:
- 单击 Marketplace / 上架软件包。
- 单击 Download Packaging and Listing Tool。
- 在 Execution Environment 下找到正确的 OS / CPU architecture。
- 单击 Download 下载
violet工具。 - 运行
chmod +x ${PATH_TO_THE_VIOLET_TOOL}使该工具可执行。
上传软件包
请先将以下脚本保存为 uploading-ai-cluster-packages.sh,然后阅读下面的注释以更新该脚本中的环境变量配置。
${PLATFORM_ADDRESS}是你的 ACP 平台地址。${PLATFORM_ADMIN_USER}是 ACP 平台管理员的用户名。${PLATFORM_ADMIN_PASSWORD}是 ACP 平台管理员的密码。${CLUSTER}是要安装 Alauda AI 组件的集群名称。${AI_CLUSTER_OPERATOR_NAME}是 Alauda AI Cluster Operator 软件包 tarball 的路径。${KNATIVE_OPERATOR_PKG_NAME}是 Knative Operator 软件包 tarball 的路径。${REGISTRY_ADDRESS}是外部 registry 的地址。${REGISTRY_USERNAME}是外部 registry 的用户名。${REGISTRY_PASSWORD}是外部 registry 的密码。
配置完成后,执行 bash ./uploading-ai-cluster-packages.sh 脚本文件,即可上传 Alauda AI 和 Knative Operator。
安装 Alauda AI Operator
操作步骤
在 Administrator 视图中:
-
单击 Marketplace / OperatorHub。
-
在控制台顶部,从 Cluster 下拉列表中选择要安装 Alauda AI 的目标集群。
-
选择 Alauda AI,然后单击 Install。
Install Alauda AI 窗口将弹出。
-
然后在 Install Alauda AI 窗口中进行设置。
-
保持 Channel 不变。
-
检查 Version 是否与要安装的 Alauda AI 版本一致。
-
保持 Installation Location 不变,默认应为
aml-operator。 -
在 Upgrade Strategy 中选择 Manual。
-
单击 Install。
验证
确认 Alauda AI 磁贴显示以下状态之一:
Installing:正在安装中;请等待其变为Installed。Installed:安装完成。
安装 Alauda Build of KServe Operator
有关详细安装步骤,请参见 Alauda Build of KServe 中的 Install KServe。
启用 Knative 功能
Knative 功能是可选能力,需要额外部署一个 operator 和一个实例。
如果你计划使用 Knative 功能,必须 在创建 Alauda AI 实例 之前 安装 Knative Operator 并创建 Knative Serving 实例,以确保集群中存在所需的 CRD。
1. 安装 Knative Operator
从 Knative Operator 开始,Knative networking 层切换为 Kourier,因此不再需要安装 Istio。
操作步骤
在 Administrator 视图中:
-
单击 Marketplace / OperatorHub。
-
在控制台顶部,从 Cluster 下拉列表中选择要安装到的目标集群。
-
搜索并选择 Knative Operator,然后单击 Install。
Install Knative Operator 窗口将弹出。
-
然后在 Install Knative Operator 窗口中进行设置。
-
保持 Channel 不变。
-
检查 Version 是否与要安装的 Knative Operator 版本一致。
-
保持 Installation Location 不变。
-
在 Upgrade Strategy 中选择 Manual。
-
单击 Install。
验证
确认 Knative Operator 磁贴显示以下状态之一:
Installing:正在安装中;请等待其变为Installed。Installed:安装完成。
2. 创建 Knative Serving 实例
安装 Knative Operator 后,你需要手动创建 KnativeServing 实例。
操作步骤
-
创建
knative-serving命名空间。 -
在 Administrator 视图中,导航到 Operators -> Installed Operators。
-
选择 Knative Operator。
-
在 Provided APIs 下找到 KnativeServing,然后单击 Create Instance。
-
切换到 YAML view。
-
将内容替换为以下 YAML:
-
单击 Create。
- 对于 ACP 4.0,请使用版本 1.18.1
- 对于 ACP 4.1 及以上,请使用版本 1.19.6
-
指定要部署的 Knative Serving 版本。
-
private-registry是你的私有 registry 地址的占位符。你可以在 Administrator 视图中单击 Clusters,选择your cluster,然后在 Basic Info 部分查看 Private Registry 的值。
创建 Alauda AI 实例
安装完成 Alauda AI Operator(以及可选的 Knative Operator)后,你就可以创建 Alauda AI 实例了。
操作步骤
在 Administrator 视图中:
-
单击 Marketplace / OperatorHub。
-
在控制台顶部,从 Cluster 下拉列表中选择要安装 Alauda AI Operator 的目标集群。
-
选择 Alauda AI,然后 Click。
-
在 Alauda AI 页面中,单击选项卡中的 All Instances。
-
单击 Create。
Select Instance Type 窗口将弹出。
-
在 Select Instance Type 窗口中找到 AmlCluster 磁贴,然后单击 Create。
Create AmlCluster 表单将显示。
-
保持 Name 为
default不变。 -
从下拉列表中选择 Deploy Flavor:
- 非 HA 部署选择
single-node。 - HA 集群部署选择
ha-cluster(生产环境 推荐)。
- 非 HA 部署选择
-
将 KServe Mode 设置为 Managed。
-
在 Domain 字段中输入一个有效的域名。
INFO该域名由 ingress gateway 用于暴露模型服务。
通常你会希望使用通配符域名,例如 *.example.com。
你可以通过更新 Domain Certificate Type 字段来指定以下证书类型:
ProvidedSelfSignedACPDefaultIngress
默认情况下,配置使用
SelfSigned证书类型来保护到集群的 ingress 流量,证书存储在 Domain Certificate Secret 字段中指定的knative-serving-certsecret 里。 -
(可选) 如果你想启用 Knative 功能,请在 Serverless Configuration 部分将 Knative Serving Provider 设置为 Operator。
INFO如果你在前面的步骤中安装了 Knative Operator 以启用 Serverless 功能,请提供以下参数以完成集成:
- APIVersion:
operator.knative.dev/v1beta1 - Kind:
KnativeServing - Name:
knative-serving - Namespace:
knative-serving
如果你不使用 Knative 功能,请将 Knative Serving Provider 保持为
Removed(或留空),其余参数保持为空。 - APIVersion:
-
在 Gitlab 部分:
- 在 Base URL 中输入自建 Gitlab 的 URL。
- 在 Admin Token Secret Namespace 中输入
cpaas-system。 - 在 Admin Token Secret Name 中输入
aml-gitlab-admin-token。
-
检查上述配置,然后单击 Create。
验证
检查名为 default 的 AmlCluster 资源中的 status 字段:
应返回 Ready:
现在,Alauda AI 的核心能力已经成功部署完成。如果你想快速体验该产品,请参阅 Quick Start。
常见问题
1. 为 aml-skipper 配置审计输出目录
默认的审计输出路径是主机上的 /cpaas/audit。但是,在某些操作系统上(例如 MicroOS),主机的根路径是只读的,无法创建 /cpaas 目录。在这种情况下,用户需要修改审计输出路径。
要修改审计输出路径,请更新 AmlCluster 的 default 资源,并在 spec.values 下添加 amlSkipper.auditLogHostPath.path 配置。例如:
具体路径应与 Alauda Container Platform Log Collector 的采集配置保持一致。