快速开始
本文档旨在帮助新用户快速了解如何在 Alauda AI 中部署推理服务。通过部署一个简单的“文本生成”推理服务并体验它,您可以快速掌握平台的主要功能和使用方法。
目录
预计阅读时间
预计完成本文档的阅读和操作大约需要 20 分钟。
注意事项
本文档仅演示基本流程,详细参数配置请参考完整文档。
前提条件
- 您已拥有平台管理员账号(用于创建和管理 namespace)。
- 您已准备好待部署的模型文件(可提前从 Hugging Face 或 ModelScope 等网站下载)。
- 如需使用 GPU 推理,请确保已安装 GPU 插件。若未安装,请在平台管理插件中心安装 GPU 插件。
- 您了解 Kubernetes 和机器学习模型的基本概念。
步骤概览
操作步骤
步骤 1:创建 Namespace 并为用户分配权限
注意:若已有 namespace 并已分配用户权限,可跳过此步骤
Namespace 是 Alauda AI 多租户隔离的基础,每个项目应使用独立的 namespace。
- 以管理员身份登录容器平台。
- 进入 项目管理,选择或创建项目。
- 在项目详情页,点击 Namespace。
- 点击 创建 Namespace,输入名称(例如 "text-classification-demo")。
- 点击 创建 完成 namespace 创建。
- 为用户分配 namespace 权限:
- 进入 管理员 > 用户 > 用户。
- 创建用户或选择需要使用该 namespace 的已有用户。
- 点击 配置角色 > 添加角色。
- 添加 Alauda AI 角色,并关联到创建的 namespace 及该 namespace 所属项目。
- aml-namespace-editor:供 namespace 开发者使用,拥有创建、删除、修改和查询模型及推理服务的权限。
- aml-namespace-owner:供 namespace 管理者使用。
- aml-namespace-viewer:仅可查看模型、推理服务及其他资源。
步骤 2:管理 Namespace
注意:若 namespace 已被管理,可跳过此步骤
将创建的 namespace 纳入 Alauda AI 管理:
- 进入 Alauda AI,顶部导航选择 Admin,右侧 Clusters 中选择新建 namespace 所在集群。
- 点击左侧导航栏的 Namespace Manage,点击 管理 Namespace 按钮。
- 在弹出对话框中选择新建的 "text-classification-demo" namespace。
- 点击 管理 完成管理操作。
步骤 3:上传模型
注意:若已上传模型或使用平台共享模型,可跳过此步骤
将文本分类模型上传至模型仓库:
- 进入 Alauda AI,顶部导航选择 业务视图,选择上一步管理的 namespace。
- 点击左侧导航栏的 模型仓库,点击 创建模型仓库,输入准备好的模型名称,如 "Meta-Llama-3-8B-Instruct"。
- 参考创建模型仓库完成模型上传。
- 在 文件管理 标签页,点击 更新元数据,根据大模型属性选择正确的“任务类型”和“框架”。
- 任务类型:模型自身属性,可通过查看模型下载详情页的标签获得,分为“文本生成”、“图像生成”等。
- 框架:模型自身属性,可通过查看模型下载详情页的标签获得,分为“Transformers”、“MLflow”等。大多数流行的开源大型语言模型属于“Transformers”类型。
步骤 4:发布推理服务
将模型发布为在线推理服务:
- 在模型详情页,点击 发布推理 API > 自定义发布。
- 配置服务参数:
- 名称:meta-llama-3-8b-service
- 模型:Meta-Llama-3-8B-Instruct
- 版本:Branch-main
- 推理运行时:根据 GPU 节点安装的 cuda 版本选择,例如安装 cuda12.6 或更高版本,选择 "vllm-cuda12.6-x86"。
- 资源请求:2CPU/20Gi 内存
- 资源限制:2CPU/20Gi 内存
- GPU 加速:HAMi NVIDIA
- gpu 数量:1
- vgpu 核心数:50
- GPU 显存:23552
- 存储:挂载已有 PVC/容量 10Gi
- 自动扩缩容:关闭
- 实例数:1
- 点击 发布,等待服务启动。
- 在 推理服务 页面查看服务状态。
步骤 5:调用推理服务
测试已发布的推理服务:
- 点击左侧导航栏的 推理服务,点击“已发布推理服务”的名称,在推理服务详情页点击 体验。
- 输入测试文本,如“推荐几本好书”。
- 查看模型返回的生成文本及生成参数。