安装 Alauda AI
Alauda AI 现提供灵活的部署选项。从 Alauda AI 1.4 版本开始,Serverless 功能成为可选项,如果不需要该功能,可以实现更简化的安装。
首先,您需要部署 Alauda AI Operator。它是所有 Alauda AI 产品的核心引擎。默认情况下,它使用 KServe 的 Raw Deployment 模式作为推理后端,特别推荐用于资源密集型的生成式工作负载。该模式提供了简便的模型部署方式,并通过利用 Kubernetes 的基础功能,提供强大且可定制的部署能力。
如果您的使用场景需要 Serverless 功能(如按需零扩缩以优化成本),可以选择安装 Alauda AI Model Serving Operator。该 Operator 不包含在默认安装中,可随时添加以启用 Serverless 功能。
推荐的部署选项:对于生成式推理工作负载,推荐使用 Raw Kubernetes Deployment 方式,因为它能提供对资源分配和扩缩的最大控制。
目录
下载
Operator 组件:
-
Alauda AI Operator
Alauda AI Operator 是驱动 Alauda AI 产品的主引擎,聚焦于模型管理和推理服务两大核心功能,提供灵活且易于扩展的框架。
下载包:aml-operator.xxx.tgz
-
Alauda AI Model Serving Operator
Alauda AI Model Serving Operator 提供无服务器模型推理功能。
下载包:kserveless-operator.xxx.tgz
您可以从 Customer Portal 网站的 Marketplace 下载名为 “Alauda AI” 和 “Alauda AI Model Serving” 的应用。
上传
需要将 Alauda AI 和 Alauda AI Model Serving 两个 Operator 上传到将要使用 Alauda AI 的集群中。
下载 violet 工具
首先,如果机器上没有 violet 工具,需要先下载。
登录 Web Console 并切换到 Administrator 视图:
- 点击 Marketplace / Upload Packages。
- 点击 Download Packaging and Listing Tool。
- 在 Execution Environment 下找到对应的操作系统 / CPU 架构。
- 点击 Download 下载
violet工具。 - 运行
chmod +x ${PATH_TO_THE_VIOLET_TOOL}使工具可执行。
上传软件包
先将以下脚本保存为 uploading-ai-cluster-packages.sh,然后根据注释更新脚本中的环境变量配置。
${PLATFORM_ADDRESS}是您的 ACP 平台地址。${PLATFORM_ADMIN_USER}是 ACP 平台管理员用户名。${PLATFORM_ADMIN_PASSWORD}是 ACP 平台管理员密码。${CLUSTER}是安装 Alauda AI 组件的目标集群名称。${AI_CLUSTER_OPERATOR_NAME}是 Alauda AI Cluster Operator 包的路径。${KSERVELESS_OPERATOR_PKG_NAME}是 KServeless Operator 包的路径。${REGISTRY_ADDRESS}是外部镜像仓库地址。${REGISTRY_USERNAME}是外部镜像仓库用户名。${REGISTRY_PASSWORD}是外部镜像仓库密码。
配置完成后,执行 bash ./uploading-ai-cluster-packages.sh 脚本上传 Alauda AI 和 Alauda AI Model Serving Operator。
安装 Alauda AI Operator
操作步骤
在 Administrator 视图:
-
点击 Marketplace / OperatorHub。
-
在控制台顶部的 Cluster 下拉列表中,选择要安装 Alauda AI 的目标集群。
-
选择 Alauda AI,然后点击 Install。
会弹出 Install Alauda AI 窗口。
-
在 Install Alauda AI 窗口中:
-
保持 Channel 不变。
-
检查 Version 是否与您要安装的 Alauda AI 版本匹配。
-
保持 Installation Location 不变,默认应为
aml-operator。 -
选择 Manual 作为 Upgrade Strategy。
-
点击 Install。
验证
确认 Alauda AI 图块显示以下状态之一:
Installing:安装进行中,等待状态变为Installed。Installed:安装完成。
创建 Alauda AI 实例
安装完 Alauda AI Operator 后,即可创建 Alauda AI 实例。
操作步骤
在 Administrator 视图:
-
点击 Marketplace / OperatorHub。
-
在控制台顶部的 Cluster 下拉列表中,选择要安装 Alauda AI Operator 的目标集群。
-
选择 Alauda AI,然后点击。
-
在 Alauda AI 页面,点击标签页中的 All Instances。
-
点击 Create。
会弹出 Select Instance Type 窗口。
-
在 Select Instance Type 窗口中找到 AmlCluster 图块,点击 Create。
会显示 Create AmlCluster 表单。
-
Name 保持为
default。 -
从下拉列表中选择 Deploy Flavor:
single-node用于非 HA 部署。ha-cluster用于 HA 集群部署(生产环境推荐)。
-
将 KServe Mode 设置为 Managed。
-
在 Domain 字段输入有效域名。
INFO该域名用于 ingress gateway 暴露模型服务接口。 通常建议使用通配符域名,如 *.example.com。
通过更新 Domain Certificate Type 字段,可以指定以下证书类型:
ProvidedSelfSignedACPDefaultIngress
默认配置使用
SelfSigned证书类型保护集群的 ingress 流量,证书存储在 Domain Certificate Secret 字段指定的knative-serving-certSecret 中。若要使用自有证书,请将证书 Secret 存储在
istio-system命名空间,更新 Domain Certificate Secret 字段值,并将 Domain Certificate Type 字段改为Provided。 -
在 Serverless Configuration 部分,将 Knative Serving Provider 设置为 Operator,其余参数保持为空。
-
在 Gitlab 部分:
- 在 Base URL 输入自托管 Gitlab 的 URL。
- 在 Admin Token Secret Namespace 输入
cpaas-system。 - 在 Admin Token Secret Name 输入
aml-gitlab-admin-token。
-
检查以上配置无误后,点击 Create。
验证
通过以下命令检查名为 default 的 AmlCluster 资源状态:
应返回 Ready 状态:
现在,Alauda AI 的核心能力已成功部署。如果您想快速体验产品,请参考快速入门。
启用 Serverless 功能
Serverless 功能为可选项,需要额外部署 Operator 和实例。
1. 安装 Alauda AI Model Serving Operator
前提条件
Serverless 功能依赖于 Istio 的 Gateway 进行网络通信。请先按照文档安装 Service Mesh。
操作步骤
在 Administrator 视图:
-
点击 Marketplace / OperatorHub。
-
在控制台顶部的 Cluster 下拉列表中,选择要安装的目标集群。
-
选择 Alauda AI Model Serving,然后点击 Install。
会弹出 Install Alauda AI Model Serving 窗口。
-
在 Install Alauda AI Model Serving 窗口中:
-
保持 Channel 不变。
-
检查 Version 是否与您要安装的 Alauda AI Model Serving 版本匹配。
-
保持 Installation Location 不变,默认应为
kserveless-operator。 -
选择 Manual 作为 Upgrade Strategy。
-
点击 Install。
验证
确认 Alauda AI Model Serving 图块显示以下状态之一:
Installing:安装进行中,等待状态变为Installed。Installed:安装完成。
2. 创建 Alauda AI Model Serving 实例
安装完 Alauda AI Model Serving Operator 后,可以创建实例,有两种方式:
自动创建(推荐)
通过编辑 AmlCluster 参数,让其实例自动创建并管理。
在 Administrator 视图:
-
点击 Marketplace / OperatorHub。
-
在控制台顶部的 Cluster 下拉列表中,选择之前安装了
AmlCluster的目标集群。 -
选择 Alauda AI,然后点击。
-
在 Alauda AI 页面,点击标签页中的 All Instances。
-
点击名称为 default 的实例。
-
找到 Actions 下拉列表,选择更新。
会弹出 update default 表单。
-
在 Serverless Configuration 部分:
- 将 Knative Serving Provider 设置为
Legacy。 - 将 BuiltIn Knative Serving 设置为
Managed。
- 将 Knative Serving Provider 设置为
-
其余参数保持不变,点击 Update。
手动创建并集成
您也可以手动创建 KnativeServing (knativeservings.components.aml.dev) 实例。
在 Administrator 视图:
-
点击 Marketplace / OperatorHub。
-
在控制台顶部的 Cluster 下拉列表中,选择要安装的目标集群。
-
选择 Alauda AI Model Serving,然后点击。
-
在 Alauda AI Model Serving 页面,点击标签页中的 All Instances。
-
点击 Create。
会弹出 Select Instance Type 窗口。
-
在 Select Instance Type 窗口中找到 KnativeServing 图块,点击 Create。
会显示 Create KnativeServing 表单。
-
Name 保持为
default-knative-serving。 -
Knative Serving Namespace 保持为
knative-serving。 -
在 Ingress Gateway 部分,配置以下内容:
- 将 Ingress Gateway Istio Revision 设置为对应您 Istio 版本的值(例如
1-22)。 - 为 Domain 字段设置有效域名。
- 设置合适的 Domain Certificate Type。
INFO有关域名和证书类型配置详情,请参见相关章节。
- 将 Ingress Gateway Istio Revision 设置为对应您 Istio 版本的值(例如
-
在 Values 部分,配置以下内容:
-
从下拉列表选择 Deploy Flavor:
single-node用于非 HA 部署。ha-cluster用于 HA 集群部署(生产环境推荐)。
-
将 Global Registry Address 设置为匹配您的集群。
您可以通过以下步骤查找集群的私有镜像仓库地址:
- 在 Web Console 中,进入 Administrator / Clusters。
- 选择目标 cluster。
- 在 Overview 标签页的 Basic Info 部分找到
Private Registry address。
-
配置 AmlCluster 实例以集成 KnativeServing 实例。
在 AmlCluster 实例更新窗口,您需要在 Serverless Configuration 部分填写以下必填参数。
初始安装后,您会发现只有 Knative Serving Provider 设置为 Operator,现在需要为以下参数提供值:
- APIVersion:
components.aml.dev/v1alpha1 - Kind:
KnativeServing - Name:
default-knative-serving - Namespace 保持为空。
安装后替换 GitLab 服务
如果需要在安装后替换 GitLab 服务,请按以下步骤操作:
-
重新配置 GitLab 服务
参考预安装配置,重新执行相关步骤。 -
更新 Alauda AI 实例
- 在 Administrator 视图,进入 Marketplace > OperatorHub
- 从 Cluster 下拉列表选择目标集群
- 选择 Alauda AI,点击 All Instances 标签页
- 找到名称为 default 的实例,点击 Update
-
修改 GitLab 配置
在 Update default 表单中:- 找到 GitLab 部分
- 输入:
- Base URL:新 GitLab 实例的 URL
- Admin Token Secret Namespace:
cpaas-system - Admin Token Secret Name:
aml-gitlab-admin-token
-
重启组件
重启kubeflow命名空间中的aml-controller部署。 -
刷新平台数据
在 Alauda AI 管理视图,重新管理所有命名空间。- 在 Alauda AI 视图中,从 Business View 切换到 Admin 视图
- 在 Namespace Management 页面,删除所有已管理的命名空间
- 使用“Managed Namespace”添加需要集成 Alauda AI 的命名空间
INFO
原有模型不会自动迁移 继续使用这些模型的方法:
- 在新 GitLab 中重新创建并上传
- 或手动将模型文件转移到新仓库