硬件配置文件管理
要为数据科学家和工程师配置在平台上部署模型推理服务时使用的特定硬件配置和约束,您必须创建并管理关联的硬件配置文件。硬件配置文件将 node affinities、tolerations 和 resource constraints 封装为一个单一、可复用的实体。
创建硬件配置文件
前提条件
- 您已使用管理员权限的用户登录平台。
- 您已确认底层 Kubernetes 集群中可用的计算资源,包括 CPU、内存以及任何专用加速器(例如 GPU 型号)。
- 您熟悉 Kubernetes 调度概念,例如 Node Selectors、Taints 和 Tolerations。
操作步骤
步骤 1:进入硬件配置文件
从主导航菜单中,进入 硬件配置文件。此时会打开硬件配置文件页面,显示系统中现有的硬件配置文件。
步骤 2:开始创建硬件配置文件
单击右上角的 创建硬件配置文件。此时会打开创建硬件配置文件配置页面。
步骤 3:配置基本详情
在基本详情部分,为该配置文件提供标识信息:
- 名称:为硬件配置文件输入一个唯一且具有描述性的名称(例如,
gpu-high-performance-profile)。 - 描述:(可选)输入清晰的硬件配置文件描述,帮助其他用户了解其预期用途。
步骤 4:配置资源标识符(requests 和 limits)
您可以为计算资源定义约束,例如 CPU、内存或特定加速器(例如 nvidia.com/gpu)。单击 添加标识符,或修改现有资源字段。您可以添加两种类型的标识符:
- 内置标识符:从平台配置的标准资源类型下拉列表中选择(例如
cpu、memory、nvidia.com/gpu)。对于这些内置类型,标识符、显示名称 和 资源类型 由平台严格预定义,且不可更改。 - 自定义标识符:输入您自己的唯一资源参数。您必须手动定义:
- 标识符:准确的 Kubernetes 资源键(例如
nvidia.com/a100或自定义厂商 ASIC)。 - 显示名称:在 UI 上显示的资源可读名称(例如
NVIDIA A100 GPU)。 - 资源类型:为集群准确分类该资源:
CPU/Memory:用于定义标准计算边界。Accelerator:主要用于任何专用 AI 芯片(如 NVIDIA GPUs、AMD GPUs 或 Intel Gaudi accelerators),用于模型训练或高负载推理任务。将类型设置为 Accelerator 后,平台会明确将该依赖识别为核心 AI 计算引擎。Other:用于附加到节点上的非 AI 辅助设备(例如用于 RDMA 的高速网络接口、infiniband 或独特的存储参数)。
- 标识符:准确的 Kubernetes 资源键(例如
对于内置和自定义标识符,您都必须配置精确的分配边界:
- 默认值:设置要分配的此资源的基准量。当用户选择该配置文件时,此值会初始注入到其工作负载中。
- 最小允许值:定义可接受的最小请求量。这将作为硬性下限,以防止用户为关键模型请求不足的资源。
- 最大允许值:(可选)指定绝对最大限制。这可明确防止用户预留超出已定义容量阈值的过多集群资源。
步骤 5:配置节点调度规则
为严格控制推理工作负载的调度目标节点,请设置 Node Selectors 和 Tolerations。这可确保高性能工作负载落到物理上正确的节点池中。
- Node Selectors:在 Node Selectors 部分,单击 添加 Node Selector。输入 Key 和 Value 约束。平台会自动注入这些键值对,以将工作负载仅限制到具有匹配标签的节点。
- Tolerations:在 Tolerations 部分,单击 添加 Toleration,以显式允许将工作负载调度到具有匹配 taints 的节点上。定义 Key、Operator(例如
Equal、Exists)、Value、Effect(例如NoSchedule、NoExecute)以及可选的 Toleration Seconds。与原生 Kubernetes tolerations 一样,您可以为单个硬件配置文件添加多个 tolerations。
步骤 6:完成创建
检查您输入的配置以确保准确无误。单击 创建,完成硬件配置文件的创建。
更新硬件配置文件
您可以更新部署中现有的硬件配置文件,以适应新的基础设施变更、硬件升级,或逐步修订的资源策略。您可以可靠地更改重要的标识信息、最小和最大资源约束,或通过节点选择器和 tolerations 调整集群节点放置策略。
步骤 1:定位硬件配置文件
从导航菜单中,单击 硬件配置文件。在列表中找到要更新的硬件配置文件。
步骤 2:编辑硬件配置文件
在对应硬件配置文件所在行的右侧,单击操作菜单(⋮)并选择 更新。
步骤 3:修改配置
对硬件配置文件配置进行必要修改:
- 安全地调整 描述。
- 更新特定资源标识符的 默认值、最小值 或 最大允许值,以严格匹配您当前的集群容量。
- 修改 Node Selectors 以匹配不同的节点标签,或更新 Tolerations 以适配新添加 taint 的 worker 节点。
步骤 4:应用更改
单击 更新,永久应用您的更改。
注意:更新硬件配置文件通常只会影响后续新配置的工作负载。此前使用此硬件配置文件实例化的活动部署将会保留其最初注入的约束。若要将新的硬件配置文件设置强制应用到已运行的工作负载,您必须显式编辑或重新部署相应的推理服务。
删除硬件配置文件
当某个特定硬件配置不再适用或对应的 Kubernetes 节点已过时,您可以安全地删除其硬件配置文件。这可确保未来的数据科学家不会错误地选择过时的节点配置或无法管理的限制。
步骤 1:定位硬件配置文件
从主导航菜单中,单击 硬件配置文件。找到要删除的硬件配置文件。
步骤 2:删除
单击相关硬件配置文件行最右侧的操作菜单(⋮),然后选择 删除。
步骤 3:确认删除
系统会显示一个警告对话框,要求您确认删除操作。单击 删除。
注意:删除硬件配置文件不会删除或主动中断之前使用该配置文件部署的正在运行的推理服务。它们将继续使用平台 webhook 最初注入的资源限制和拓扑约束正常运行。但是,已删除的硬件配置文件会立即从所有新建部署的配置文件下拉列表中消失。
在推理服务中使用硬件配置文件
当用户(如数据科学家、AI 工程师和开发人员)动态创建或配置模型推理服务(包括 InferenceService 和 LLMInferenceService)时,他们可以高效利用预定义的硬件配置文件。
硬件配置文件可无缝简化手动配置复杂节点调度规则和设置显式资源限制这一繁琐任务。根据工作负载的具体需求,您可以灵活接受严格的默认配置,或在所选配置文件官方授权的边界内精细自定义限制。
步骤 1:打开部署表单
从导航菜单中,进入 服务管理。单击 创建,打开用于部署全新模型推理服务的表单。
步骤 2:选择硬件配置文件
在部署表单中向下滚动,进入 部署资源 部分。在这里,您可以先选择 配置类型 来定义资源限制:
- 默认情况下,配置类型设置为 硬件配置文件。随后,您可以单击 配置文件 下拉菜单,选择平台管理员当前已为目标计算环境启用的特定硬件配置文件。
- 或者,如果您更希望绕过预定义配置文件并手动提供原始 Kubernetes 资源限制,可以选择 自定义。
步骤 3:查看并自定义资源分配
选定硬件配置文件后,表单会安全锁定管理员整理的对应基线定义。不过,您仍然可以优化精确的资源限制:
- 要查看管理员指定的边界,请单击配置文件下拉菜单旁的 查看详情 按钮。这将打开一个信息抽屉或模态框,明确展示该硬件配置文件的具体信息,包括已配置的节点规则以及 CPU、Memory 和 GPUs 的绝对限制。
- 根据您的具体工作负载需求,单击硬件配置文件部分下方动态显示的 自定义配置 按钮。自定义请求和限制在概念上必须严格保持在硬件配置文件定义的最小值和最大值范围内。
- 通过触发此自定义,您可以直接修改推理服务的最终 Requests 和 Limits 配置。如果您提交了无效的请求参数,验证引擎会优雅地捕获该偏差,并向您显示验证错误。
步骤 4:部署
填写服务其余参数,然后单击 部署。