快速开始

本文档旨在帮助新用户快速了解如何在 Alauda AI 中部署推理服务。通过部署一个简单的“文本生成”推理服务并体验它，您可以快速掌握平台的主要功能和使用方法。

预计阅读时间

预计完成本文档的阅读和操作大约需要 20 分钟。

注意事项

本文档仅演示基本流程，详细参数配置请参考完整文档。

前提条件

您已拥有平台管理员账号（用于创建和管理 namespace）。
您已准备好待部署的模型文件（可提前从 Hugging Face 或 ModelScope 等网站下载）。
如需使用 GPU 推理，请确保已安装 GPU 插件。若未安装，请在平台管理插件中心安装 GPU 插件。
您了解 Kubernetes 和机器学习模型的基本概念。

步骤概览

步骤	操作	说明	备注
1	创建 Namespace	在容器平台创建 namespace，并为用户配置 Alauda AI 相关角色	若已有 namespace 并已分配用户权限，可跳过此步骤
2	管理 Namespace	将 namespace 纳入 Alauda AI 管理	若 namespace 已被管理，可跳过此步骤
3	上传模型	将模型文件上传至模型仓库	若已上传模型或使用平台共享模型，可跳过此步骤
4	发布推理服务	将模型发布为在线推理服务
5	调用推理服务	通过 API 或“体验”功能调用推理服务

操作步骤

步骤 1：创建 Namespace 并为用户分配权限

注意：若已有 namespace 并已分配用户权限，可跳过此步骤

Namespace 是 Alauda AI 多租户隔离的基础，每个项目应使用独立的 namespace。

以管理员身份登录容器平台。
进入 项目管理，选择或创建项目。
在项目详情页，点击 Namespace。
点击 创建 Namespace，输入名称（例如 "text-classification-demo"）。
点击创建完成 namespace 创建。
为用户分配 namespace 权限：
- 进入 管理员 > 用户 > 用户。
- 创建用户或选择需要使用该 namespace 的已有用户。
- 点击 配置角色 > 添加角色。
- 添加 Alauda AI 角色，并关联到创建的 namespace 及该 namespace 所属项目。
  - aml-namespace-editor：供 namespace 开发者使用，拥有创建、删除、修改和查询模型及推理服务的权限。
  - aml-namespace-owner：供 namespace 管理者使用。
  - aml-namespace-viewer：仅可查看模型、推理服务及其他资源。

步骤 2：管理 Namespace

注意：若 namespace 已被管理，可跳过此步骤

将创建的 namespace 纳入 Alauda AI 管理：

进入 Alauda AI，顶部导航选择 Admin，右侧 Clusters 中选择新建 namespace 所在集群。
点击左侧导航栏的 Namespace Manage，点击 管理 Namespace 按钮。
在弹出对话框中选择新建的 "text-classification-demo" namespace。
点击管理完成管理操作。

步骤 3：上传模型

注意：若已上传模型或使用平台共享模型，可跳过此步骤

将文本分类模型上传至模型仓库：

进入 Alauda AI，顶部导航选择 业务视图，选择上一步管理的 namespace。
点击左侧导航栏的 模型仓库，点击 创建模型仓库，输入准备好的模型名称，如 "Meta-Llama-3-8B-Instruct"。
参考创建模型仓库完成模型上传。
在 文件管理 标签页，点击 更新元数据，根据大模型属性选择正确的“任务类型”和“框架”。
- 任务类型：模型自身属性，可通过查看模型下载详情页的标签获得，分为“文本生成”、“图像生成”等。
- 框架：模型自身属性，可通过查看模型下载详情页的标签获得，分为“Transformers”、“MLflow”等。大多数流行的开源大型语言模型属于“Transformers”类型。

步骤 4：发布推理服务

将模型发布为在线推理服务：

在模型详情页，点击 发布推理 API > 自定义发布。
配置服务参数：
- 名称：meta-llama-3-8b-service
- 模型：Meta-Llama-3-8B-Instruct
- 版本：Branch-main
- 推理运行时：根据 GPU 节点安装的 cuda 版本选择，例如安装 cuda12.6 或更高版本，选择 "vllm-cuda12.6-x86"。
- 资源请求：2CPU/20Gi 内存
- 资源限制：2CPU/20Gi 内存
- GPU 加速：HAMi NVIDIA
  - gpu 数量：1
  - vgpu 核心数：50
  - GPU 显存：23552
- 存储：挂载已有 PVC/容量 10Gi
- 自动扩缩容：关闭
- 实例数：1
点击发布，等待服务启动。
在 推理服务 页面查看服务状态。

步骤 5：调用推理服务

测试已发布的推理服务：

点击左侧导航栏的 推理服务，点击“已发布推理服务”的名称，在推理服务详情页点击体验。
输入测试文本，如“推荐几本好书”。
查看模型返回的生成文本及生成参数。

快速开始#

#目录

#预计阅读时间

#注意事项

#前提条件

#步骤概览

#操作步骤

#步骤 1：创建 Namespace 并为用户分配权限

#步骤 2：管理 Namespace

#步骤 3：上传模型

#步骤 4：发布推理服务

#步骤 5：调用推理服务