安装 Alauda AI
Alauda AI 现提供灵活的部署选项。从 Alauda AI 1.4 版本开始,Serverless 功能成为可选项,如果不需要该功能,可以实现更简化的安装。
首先,您需要部署 Alauda AI Operator。这是所有 Alauda AI 产品的核心引擎。默认情况下,它使用 KServe 的 Raw Deployment 模式作为推理后端,特别推荐用于资源密集型的生成式工作负载。该模式提供了简单的模型部署方式,并通过利用 Kubernetes 基础功能,提供强大且可定制的部署能力。
如果您的使用场景需要 Serverless 功能(如按需零实例扩缩以优化成本),可以选择安装 Knative Operator。该 Operator 不包含在默认安装中,可随时添加以启用 Serverless 功能。
推荐部署选项:对于生成式推理工作负载,推荐使用 Raw Kubernetes Deployment 方式,因为它提供了对资源分配和扩缩的最大控制。
目录
下载上传安装 Alauda AI Operator创建 Alauda AI 实例启用 Serverless 功能1. 安装 Knative Operator2. 创建 Knative Serving 实例3. 与 AmlCluster 集成安装后替换 GitLab 服务常见问题1. 配置 aml-skipper 的审计输出目录下载
Operator 组件:
-
Alauda AI Operator
Alauda AI Operator 是驱动 Alauda AI 产品的主引擎,聚焦于模型管理和推理服务两大核心功能,提供灵活且易于扩展的框架。
下载包:aml-operator.xxx.tgz
-
Knative Operator
Knative Operator 提供无服务器模型推理功能。
下载包:knative-operator.ALL.v1.x.x-yymmdd.tgz
您可以在 Customer Portal 网站的 Marketplace 中下载名为 “Alauda AI” 和 “Knative Operator” 的应用。
上传
需要将 Alauda AI 和 Knative Operator 两个包上传到将要使用 Alauda AI 的集群中。
下载 violet 工具
首先,如果机器上没有 violet 工具,需要先下载。
登录 Web Console 并切换到 Administrator 视图:
- 点击 Marketplace / Upload Packages。
- 点击 Download Packaging and Listing Tool。
- 在 Execution Environment 下找到对应的操作系统 / CPU 架构。
- 点击 Download 下载
violet工具。 - 运行
chmod +x ${PATH_TO_THE_VIOLET_TOOL}使工具可执行。
上传软件包
先将以下脚本保存为 uploading-ai-cluster-packages.sh,然后根据注释更新脚本中的环境变量配置。
${PLATFORM_ADDRESS}是您的 ACP 平台地址。${PLATFORM_ADMIN_USER}是 ACP 平台管理员用户名。${PLATFORM_ADMIN_PASSWORD}是 ACP 平台管理员密码。${CLUSTER}是安装 Alauda AI 组件的目标集群名称。${AI_CLUSTER_OPERATOR_NAME}是 Alauda AI Cluster Operator 包的路径。${KNATIVE_OPERATOR_PKG_NAME}是 Knative CE Operator 包的路径。${REGISTRY_ADDRESS}是外部镜像仓库地址。${REGISTRY_USERNAME}是外部镜像仓库用户名。${REGISTRY_PASSWORD}是外部镜像仓库密码。
配置完成后,执行脚本 bash ./uploading-ai-cluster-packages.sh,上传 Alauda AI 和 Knative Operator。
安装 Alauda AI Operator
操作步骤
在 Administrator 视图中:
-
点击 Marketplace / OperatorHub。
-
在控制台顶部的 Cluster 下拉列表中,选择要安装 Alauda AI 的目标集群。
-
选择 Alauda AI,然后点击 Install。
会弹出 Install Alauda AI 窗口。
-
在 Install Alauda AI 窗口中:
-
保持 Channel 不变。
-
检查 Version 是否与您要安装的 Alauda AI 版本匹配。
-
保持 Installation Location 不变,默认应为
aml-operator。 -
选择 Manual 作为 Upgrade Strategy。
-
点击 Install。
验证
确认 Alauda AI 图块显示以下状态之一:
Installing:安装进行中,等待状态变为Installed。Installed:安装完成。
创建 Alauda AI 实例
安装完 Alauda AI Operator 后,即可创建 Alauda AI 实例。
操作步骤
在 Administrator 视图中:
-
点击 Marketplace / OperatorHub。
-
在控制台顶部的 Cluster 下拉列表中,选择要安装 Alauda AI Operator 的目标集群。
-
选择 Alauda AI,然后点击。
-
在 Alauda AI 页面,点击标签页中的 All Instances。
-
点击 Create。
会弹出 Select Instance Type 窗口。
-
在 Select Instance Type 窗口中找到 AmlCluster 图块,点击 Create。
会显示 Create AmlCluster 表单。
-
Name 保持为
default。 -
从下拉菜单选择 Deploy Flavor:
single-node用于非高可用部署。ha-cluster用于高可用集群部署(推荐用于生产环境)。
-
将 KServe Mode 设置为 Managed。
-
在 Domain 字段输入有效域名。
INFO该域名用于 ingress gateway 暴露模型服务接口。 通常建议使用通配符域名,如 *.example.com。
通过更新 Domain Certificate Type 字段,可以指定以下证书类型:
ProvidedSelfSignedACPDefaultIngress
默认配置使用
SelfSigned证书类型保护集群的 ingress 流量,证书存储在 Domain Certificate Secret 字段指定的knative-serving-certsecret 中。 -
在 Serverless Configuration 部分,将 Knative Serving Provider 设置为 Operator,其他参数保持为空。
-
在 Gitlab 部分:
- 在 Base URL 输入自托管 Gitlab 的 URL。
- 在 Admin Token Secret Namespace 输入
cpaas-system。 - 在 Admin Token Secret Name 输入
aml-gitlab-admin-token。
-
检查以上配置无误后,点击 Create。
验证
通过以下命令检查名为 default 的 AmlCluster 资源状态:
应返回 Ready 状态:
现在,Alauda AI 的核心能力已成功部署。如果您想快速体验产品,请参考 快速开始。
启用 Serverless 功能
Serverless 功能为可选项,需要额外部署 Operator 和实例。
1. 安装 Knative Operator
从 Knative CE Operator 开始,Knative 网络层切换为 Kourier,因此不再需要安装 Istio。
操作步骤
在 Administrator 视图中:
-
点击 Marketplace / OperatorHub。
-
在控制台顶部的 Cluster 下拉列表中,选择目标集群。
-
搜索并选择 Knative Operator,然后点击 Install。
会弹出 Install Knative Operator 窗口。
-
在 Install Knative Operator 窗口中:
-
保持 Channel 不变。
-
检查 Version 是否与您要安装的 Knative Operator 版本匹配。
-
保持 Installation Location 不变。
-
选择 Manual 作为 Upgrade Strategy。
-
点击 Install。
验证
确认 Knative Operator 图块显示以下状态之一:
Installing:安装进行中,等待状态变为Installed。Installed:安装完成。
2. 创建 Knative Serving 实例
安装完 Knative Operator 后,需要手动创建 KnativeServing 实例。
操作步骤
-
创建
knative-serving命名空间。 -
在 Administrator 视图,导航至 Operators -> Installed Operators。
-
选择 Knative CE Operator。
-
在 Provided APIs 下找到 KnativeServing,点击 Create Instance。
-
切换到 YAML view。
-
替换内容为以下 YAML:
-
点击 Create。
-
ACP 4.0 保持版本为 "1.18.1",ACP 4.1 及以上版本改为 "1.19.6"。
-
private-registry是您的私有仓库地址占位符。您可以在 Administrator 视图中点击 Clusters,选择对应集群,在 Basic Info 部分查看 Private Registry 值。
3. 与 AmlCluster 集成
配置 AmlCluster 实例以集成 KnativeServing 实例。
在 AmlCluster 实例更新窗口的 Serverless Configuration 部分,填写以下必填参数。
初始安装后,您会发现只有 Knative Serving Provider 设置为 Operator,现在需要为以下参数提供值:
- APIVersion:
operator.knative.dev/v1beta1 - Kind:
KnativeServing - Name:
knative-serving - Namespace:
knative-serving
安装后替换 GitLab 服务
如果需要在安装后替换 GitLab 服务,请按以下步骤操作:
-
重新配置 GitLab 服务
参考 预安装配置 并重新执行相关步骤。 -
更新 Alauda AI 实例
- 在 Administrator 视图,进入 Marketplace > OperatorHub
- 从 Cluster 下拉列表选择目标集群
- 选择 Alauda AI,点击 All Instances 标签页
- 找到名为 'default' 的实例,点击 Update
-
修改 GitLab 配置
在 Update default 表单中:- 找到 GitLab 部分
- 输入:
- Base URL:新 GitLab 实例的 URL
- Admin Token Secret Namespace:
cpaas-system - Admin Token Secret Name:
aml-gitlab-admin-token
-
重启组件
重启kubeflow命名空间下的aml-controllerdeployment。 -
刷新平台数据
在 Alauda AI 管理视图,重新管理所有命名空间。- 在 Alauda AI 视图,从 Business View 进入 Admin 视图
- 在 Namespace Management 页面,删除所有已管理的命名空间
- 使用 “Managed Namespace” 添加需要集成 Alauda AI 的命名空间
INFO原有模型不会自动迁移
继续使用这些模型的方法:- 在新 GitLab 中重新创建并上传
- 或手动将模型文件迁移到新仓库
常见问题
1. 配置 aml-skipper 的审计输出目录
默认审计输出路径为宿主机上的 /cpaas/audit。但在某些操作系统(如 MicroOS)中,宿主机根路径为只读,无法创建 /cpaas 目录,此时需要修改审计输出路径。
修改方法是在 AmlCluster 默认资源中,spec.values 下添加 amlSkipper.auditLogHostPath.path 配置,例如:
具体路径应与 Alauda Container Platform Log Collector 的采集配置保持一致。