如何定义 pGPU 计费模型
目录
前提条件
在 GPU 集群中:
- 已安装 Alauda Build 的 NVIDIA GPU Device Plugin
- 已安装成本管理智能体
关于 Alauda Build 的 NVIDIA GPU Device Plugin
Kubernetes 的 NVIDIA 设备插件是一个 Daemonset,允许您自动:
- 暴露集群中每个节点的 GPU 数量
- 跟踪 GPU 的健康状态
- 在 Kubernetes 集群中运行支持 GPU 的容器。
Note
因为 Alauda Build of NVIDIA GPU Device Plugin 的发版周期与灵雀云容器平台不同,所以 Alauda Build of NVIDIA GPU Device Plugin 的文档现在作为独立的文档站点托管在 。
操作步骤
创建 PrometheusRule 以生成所需指标
在 GPU 集群中创建一个 PrometheusRule。
添加采集配置(成本管理智能体)
在运行成本管理智能体的 GPU 集群中创建一个 ConfigMap,用于声明采集内容。
添加 yaml 后,需要重启智能体 Pod 以重新加载配置。
添加展示/存储配置(成本管理服务器)
在运行成本管理服务器的集群中创建一个 ConfigMap,用于声明计费项、计费方式、单位和显示名称,告诉服务器如何计费。
添加 yaml 后,需要重启服务器 Pod 以重新加载配置。
为 pGPU 计费模型添加价格
计费方式说明
如果 GPU 集群没有成本模型,需要先创建新的成本模型。 然后可以为 GPU 集群的成本模型添加价格:
- 在 计费项 中选择
pGPU。 - 在 方式 中选择
Request Usage (count-hours)或Project Quota (count-hours)。 - 设置 默认价格。
- 配置 按标签定价(可选)。
示例:
key: modelName
value: "Tesla P100-PCIE-16GB" 或 "Tesla T4" 或 "NVIDIA A30"(通过运行nvidia-smi获取)
成本明细与成本统计
最后,等待 1 小时或更长时间后,您可以在 成本明细 中查看基于命名空间和卡 UUID 维度的成本明细。 并且可以在 成本统计 中查看基于集群、项目和命名空间的总成本。