如何定义 vGPU(Hami) 成本模型
目录
前提条件
在 GPU 集群中:
- 已安装 Alauda Build of Hami
- 已安装成本管理智能体
关于 Alauda Build of Hami
异构 AI 计算虚拟化中间件(HAMi),前称 k8s-vGPU-scheduler,是一个用于管理 k8s 集群中异构 AI 计算设备的“一体化”chart。它可以提供在任务间共享异构 AI 设备的能力。
操作步骤
创建 PrometheusRule 以生成所需指标
在 Hami 集群中创建一个 PrometheusRule。
添加采集配置(成本管理智能体)
在运行成本管理智能体的 Hami 集群中创建一些 ConfigMap 来声明需要采集的内容。
注意:项目配额的 configmap 仅在 hami 2.7+ 版本支持。
添加 yaml 后,需要重启智能体 Pod 以重新加载配置。
添加展示/存储配置(成本管理服务器)
在运行成本管理服务器的集群中创建 ConfigMap,声明计费项、计费方式、单位和展示名称,告诉服务器如何计费。
注意: 若不启用 GPU 超额配比,使用请求量计费没有意义。若使用请求量计费,请务必启用 GPU 超额配比。
添加 yaml 后,需要重启服务器 Pod 以重新加载配置。
为 vGPU 成本模型添加价格
如果 GPU 集群尚无成本模型,需要先创建新的成本模型。 然后可以为 GPU 集群的成本模型添加价格:
计费方式说明
为成本模型添加价格
-
在 计费项 中选择
vGPU或vGPUMemory。 -
在 方式 中选择
Request Usage (core-hours)、Used Usage (core-hours)或Project Quota (core-hours)。 -
设置 默认价格。
-
配置 按标签定价(可选)。 目前仅支持两个键:
modelName和devicemodelName:GPU 型号,例如 "Tesla P100-PCIE-16GB" 或 "Tesla T4"(通过运行
nvidia-smi获得)。device:GPU 厂商,例如 "nvidia" 或 "ascend"。
成本明细与成本统计
最后,等待 1 小时或更长时间后,可以在 成本明细 中查看基于命名空间和卡 UUID 维度的成本详情。 同时,可以在 成本统计 中查看基于集群、项目和命名空间的总成本。