快速开始

本文档旨在帮助新用户快速了解如何在 Alauda AI 中部署推理服务。通过部署一个简单的“文本生成”推理服务并体验它,您可以快速掌握平台的主要功能和使用方法。

目录

预计阅读时间

预计完成本文档的阅读和操作大约需要 20 分钟。

注意事项

本文档仅演示基本流程,详细参数配置请参考完整文档。

前提条件

  • 您已拥有平台管理员账号(用于创建和管理 namespace)。
  • 您已准备好待部署的模型文件(可提前从 Hugging Face 或 ModelScope 等网站下载)。
  • 如需使用 GPU 推理,请确保已安装 GPU 插件。若未安装,请在平台管理插件中心安装 GPU 插件。
  • 您了解 Kubernetes 和机器学习模型的基本概念。

步骤概览

步骤操作说明备注
1创建 Namespace在容器平台创建 namespace,并为用户配置 Alauda AI 相关角色若已有 namespace 并已分配用户权限,可跳过此步骤
2管理 Namespace将 namespace 纳入 Alauda AI 管理若 namespace 已被管理,可跳过此步骤
3上传模型将模型文件上传至模型仓库若已上传模型或使用平台共享模型,可跳过此步骤
4发布推理服务将模型发布为在线推理服务
5调用推理服务通过 API 或“体验”功能调用推理服务

操作步骤

步骤 1:创建 Namespace 并为用户分配权限

注意:若已有 namespace 并已分配用户权限,可跳过此步骤

Namespace 是 Alauda AI 多租户隔离的基础,每个项目应使用独立的 namespace。

  1. 以管理员身份登录容器平台。
  2. 进入 项目管理,选择或创建项目。
  3. 在项目详情页,点击 Namespace
  4. 点击 创建 Namespace,输入名称(例如 "text-classification-demo")。
  5. 点击 创建 完成 namespace 创建。
  6. 为用户分配 namespace 权限:
    • 进入 管理员 > 用户 > 用户
    • 创建用户或选择需要使用该 namespace 的已有用户。
    • 点击 配置角色 > 添加角色
    • 添加 Alauda AI 角色,并关联到创建的 namespace 及该 namespace 所属项目。
      • aml-namespace-editor:供 namespace 开发者使用,拥有创建、删除、修改和查询模型及推理服务的权限。
      • aml-namespace-owner:供 namespace 管理者使用。
      • aml-namespace-viewer:仅可查看模型、推理服务及其他资源。

步骤 2:管理 Namespace

注意:若 namespace 已被管理,可跳过此步骤

将创建的 namespace 纳入 Alauda AI 管理:

  1. 进入 Alauda AI,顶部导航选择 Admin,右侧 Clusters 中选择新建 namespace 所在集群。
  2. 点击左侧导航栏的 Namespace Manage,点击 管理 Namespace 按钮。
  3. 在弹出对话框中选择新建的 "text-classification-demo" namespace。
  4. 点击 管理 完成管理操作。

步骤 3:上传模型

注意:若已上传模型或使用平台共享模型,可跳过此步骤

将文本分类模型上传至模型仓库:

  1. 进入 Alauda AI,顶部导航选择 业务视图,选择上一步管理的 namespace。
  2. 点击左侧导航栏的 模型仓库,点击 创建模型仓库,输入准备好的模型名称,如 "Meta-Llama-3-8B-Instruct"。
  3. 参考创建模型仓库完成模型上传。
  4. 文件管理 标签页,点击 更新元数据,根据大模型属性选择正确的“任务类型”和“框架”。
    • 任务类型:模型自身属性,可通过查看模型下载详情页的标签获得,分为“文本生成”、“图像生成”等。
    • 框架:模型自身属性,可通过查看模型下载详情页的标签获得,分为“Transformers”、“MLflow”等。大多数流行的开源大型语言模型属于“Transformers”类型。

步骤 4:发布推理服务

将模型发布为在线推理服务:

  1. 在模型详情页,点击 发布推理 API > 自定义发布
  2. 配置服务参数:
    • 名称:meta-llama-3-8b-service
    • 模型:Meta-Llama-3-8B-Instruct
    • 版本:Branch-main
    • 推理运行时:根据 GPU 节点安装的 cuda 版本选择,例如安装 cuda12.6 或更高版本,选择 "vllm-cuda12.6-x86"。
    • 资源请求:2CPU/20Gi 内存
    • 资源限制:2CPU/20Gi 内存
    • GPU 加速:HAMi NVIDIA
      • gpu 数量:1
      • vgpu 核心数:50
      • GPU 显存:23552
    • 存储:挂载已有 PVC/容量 10Gi
    • 自动扩缩容:关闭
    • 实例数:1
  3. 点击 发布,等待服务启动。
  4. 推理服务 页面查看服务状态。

步骤 5:调用推理服务

测试已发布的推理服务:

  1. 点击左侧导航栏的 推理服务,点击“已发布推理服务”的名称,在推理服务详情页点击 体验
  2. 输入测试文本,如“推荐几本好书”。
  3. 查看模型返回的生成文本及生成参数。