安装 Alauda AI
在计划使用 Alauda AI 的集群中,需要部署以下两个 operator:
- Alauda AI Operator
Alauda AI Operator 是驱动 Alauda AI 产品的核心引擎,聚焦于两个核心功能:模型管理和推理服务,提供了一个灵活且易于扩展的框架。
- Alauda AI Model Serving Operator
Alauda AI Model Serving Operator 提供无服务器模型推理服务。
在部署 Alauda AI 的过程中,Alauda AI Model Serving Operator 会被自动部署,无需手动操作或配置更改。
目录
下载
您可以从 Customer Portal 网站的 Marketplace 下载 “Alauda AI” 和 “Alauda AI Model Serving”。操作步骤如下:
- 下载名为 “AI” 的应用。
- 解压下载的文件,获得
aml-operator.xxx.tgz和kserveless-operator.xxx.tgz软件包。
上传
我们需要将 Alauda AI 和 Alauda AI Model Serving 两个软件包上传到计划使用 Alauda AI 的集群中。
下载 violet 工具
首先,如果机器上没有 violet 工具,需要先下载。
登录 Web Console 并切换到 Administrator 视图:
- 点击 Marketplace / Upload Packages。
- 点击 Download Packaging and Listing Tool。
- 在 Execution Environment 下找到对应的操作系统 / CPU 架构。
- 点击 Download 下载
violet工具。 - 运行
chmod +x ${PATH_TO_THE_VIOLET_TOOL}使工具可执行。
上传软件包
先将以下脚本保存为 uploading-ai-cluster-packages.sh,然后根据注释更新脚本中的环境变量配置。
${PLATFORM_ADDRESS}是您的 ACP 平台地址。${PLATFORM_ADMIN_USER}是 ACP 平台管理员用户名。${PLATFORM_ADMIN_PASSWORD}是 ACP 平台管理员密码。${CLUSTER}是安装 Alauda AI 组件的目标集群名称。${AI_CLUSTER_OPERATOR_NAME}是 Alauda AI Cluster Operator 软件包 tarball 的路径。${KSERVELESS_OPERATOR_PKG_NAME}是 KServeless Operator 软件包 tarball 的路径。${REGISTRY_ADDRESS}是外部镜像仓库地址。${REGISTRY_USERNAME}是外部镜像仓库用户名。${REGISTRY_PASSWORD}是外部镜像仓库密码。
配置完成后,执行 bash ./uploading-ai-cluster-packages.sh 脚本上传 Alauda AI 和 Alauda AI Model Serving operator。
安装 Alauda AI Operator
操作步骤
在 Administrator 视图:
-
点击 Marketplace / OperatorHub。
-
在控制台顶部,从 Cluster 下拉列表中选择要安装 Alauda AI 的目标集群。
-
选择 Alauda AI,然后点击 Install。
会弹出 Install Alauda AI 窗口。
-
在 Install Alauda AI 窗口中:
-
保持 Channel 不变。
-
检查 Version 是否与您要安装的 Alauda AI 版本匹配。
-
保持 Installation Location 不变,默认应为
aml-operator。 -
选择 Manual 作为 Upgrade Strategy。
-
点击 Install。
验证
确认 Alauda AI 面板显示以下状态之一:
Installing:安装进行中;等待状态变为Installed。Installed:安装完成。
创建 Alauda AI 实例
安装完成 Alauda AI Operator 后,即可创建 Alauda AI 实例。
操作步骤
在 Administrator 视图:
-
点击 Marketplace / OperatorHub。
-
在控制台顶部,从 Cluster 下拉列表中选择要安装 Alauda AI Operator 的目标集群。
-
选择 Alauda AI,然后点击。
-
在 Alauda AI 页面,点击标签页中的 All Instances。
-
点击 Create。
会弹出 Select Instance Type 窗口。
-
在 Select Instance Type 窗口中找到 AmlCluster 面板,点击 Create。
会显示 Create AmlCluster 表单。
-
Name 保持为
default。 -
从下拉列表中选择 Deploy Flavor:
single-node用于非 HA 部署。ha-cluster用于 HA 集群部署(生产环境推荐)。
-
选择 Managed 作为 Knative Serving Mode。
-
选择 Managed 作为 KServe Mode。
-
为 Domain 字段输入有效域名。
INFO该域名用于 ingress gateway 暴露模型推理服务。 通常建议使用通配符域名,如 *.example.com。
您可以通过更新 Domain Certificate Type 字段指定以下证书类型:
ProvidedSelfSignedACPDefaultIngress
默认配置使用
SelfSigned证书类型保护集群的 ingress 流量,证书存储在 Domain Certificate Secret 字段指定的knative-serving-certsecret 中。若使用自有证书,请将证书 secret 存储在
istio-system命名空间,然后更新 Domain Certificate Secret 字段的值,并将 Domain Certificate Type 字段改为Provided。 -
在 Gitlab 部分:
- 输入自托管 Gitlab 的 URL 到 Base URL。
- 输入
cpaas-system到 Admin Token Secret Namespace。 - 输入
aml-gitlab-admin-token到 Admin Token Secret Name。
-
在 MySQL 部分:
- 在 Host 字段输入 MySQL 实例的 地址。
- 在 Port 字段输入 MySQL 实例的 端口(默认:
3306)。 - 在 Username 字段输入连接 MySQL 实例的 用户。
- 在 Database 字段输入用于 Alauda AI 的 数据库 名称(默认:
aml)。 - 在 Password Secret Namespace 字段选择该 用户 密码 secret 所在的命名空间。
- 在 Password Secret Name 字段输入该 用户 密码 secret 的名称。
INFO关于 MySQL 用户权限
- MySQL 实例的 用户 应具有 DDL 权限。
- 建议先创建 数据库 并授予 用户 访问权限。
- 若 数据库 未创建,则 用户 需拥有
CREATE DATABASE权限以创建数据库。
-
检查以上配置无误后,点击 Create。
验证
查看名为 default 的 AmlCluster 资源的状态字段:
应返回 Ready 状态:
至此,Alauda AI 的核心能力已成功部署。如果您想快速体验产品,请参考快速开始。
安装后替换 GitLab 服务
如果需要在安装后替换 GitLab 服务,请按以下步骤操作:
-
重新配置 GitLab 服务
参考安装前配置并重新执行相关步骤。 -
更新 Alauda AI 实例
- 在 Administrator 视图,进入 Marketplace > OperatorHub
- 从 Cluster 下拉列表选择目标集群
- 选择 Alauda AI 并点击 All Instances 标签页
- 找到名为 'default' 的实例,点击 Update
-
修改 GitLab 配置
在 Update default 表单中:- 找到 GitLab 部分
- 输入:
- Base URL:新的 GitLab 实例 URL
- Admin Token Secret Namespace:
cpaas-system - Admin Token Secret Name:
aml-gitlab-admin-token
-
重启组件
重启kubeflow命名空间中的aml-controllerdeployment。 -
刷新平台数据
在 Alauda AI 管理视图,重新管理所有命名空间。- 在 Alauda AI 视图中,从 Business View 切换到 Admin 视图
- 在 Namespace Management 页面,删除所有已管理的命名空间
- 使用 “Managed Namespace” 添加需要集成 Alauda AI 的命名空间
INFO
原有模型不会自动迁移 若继续使用这些模型:
- 需在新的 GitLab 中重新创建并重新上传,或
- 手动将模型文件迁移到新的仓库