安装

Overview 安装准备通过控制台安装 ACP Monitoring with Prometheus 插件安装流程访问方式通过 YAML 安装 ACP Monitoring with Prometheus 插件 1. 检查可用版本 2. 创建 ModuleInfo 3. 验证安装通过控制台安装 ACP Monitoring with VictoriaMetrics 插件前提条件安装流程通过 YAML 安装 ACP Monitoring with VictoriaMetrics 插件 1. 检查可用版本 2. 创建 ModuleInfo 3. 验证安装

Overview

监控组件作为可观测性模块中监控、告警、巡检和健康检查功能的基础设施。本文档介绍如何在集群内安装 ACP Monitoring with Prometheus 插件或 ACP Monitoring with VictoriaMetrics 插件。

安装准备

INFO

监控的部分组件资源消耗较大，建议在 infra 节点上运行，并设置 nodeSelector 和 tolerations，确保只在这些节点上运行。如果您正在评估产品且尚未配置 infra 节点，可以去除这些设置，使组件在所有节点上运行。

关于 infra 节点规划的指导，请参见 Cluster Node Planning。

安装监控组件前，请确保满足以下条件：

已根据监控组件选择指南选择合适的监控组件。
在业务集群中安装时，确保 global 集群可以访问业务集群的 11780 端口。
如果需要使用存储类或持久卷存储监控数据，请提前在 Storage 部分创建相应资源。

通过控制台安装 ACP Monitoring with Prometheus 插件

安装流程

进入 App Store Management > Cluster Plugins，选择目标集群。
找到 ACP Monitoring with Prometheus 插件，点击 Install。

配置以下参数：

参数	说明
规模配置	支持三种配置：Small Scale、Medium Scale 和 Large Scale： - 默认值基于平台推荐的负载测试值 - 可根据实际集群规模选择或自定义配额 - 默认值会随平台版本更新，固定配置建议自定义设置
存储类型	- LocalVolume：本地存储，数据存放在指定节点 - StorageClass：通过存储类自动生成持久卷 - PV：使用已有持久卷注意：安装后不可修改存储配置
Replica 数量	设置监控组件 Pod 数量注意：Prometheus 仅支持单节点安装
参数配置	可根据需要调整监控组件的数据参数

点击 Install 完成安装。

访问方式

安装完成后，可通过以下地址访问组件（将 <> 替换为实际值）：

组件	访问地址
Thanos	`<platform_access_address>/clusters/<cluster>/prometheus`
Prometheus	`<platform_access_address>/clusters/<cluster>/prometheus-0`
Alertmanager	`<platform_access_address>/clusters/<cluster>/alertmanager`

通过 YAML 安装 ACP Monitoring with Prometheus 插件

1. 检查可用版本

在 global 集群中检查 ModulePlugin 和 ModuleConfig 资源，确保插件已发布：


# kubectl get moduleplugin | grep prometheus
prometheus                       30h
# kubectl get moduleconfig | grep prometheus
prometheus-v4.1.0                30h

表示集群中存在 ModulePlugin prometheus，且版本 v4.1.0 已发布。

2. 创建 ModuleInfo

创建 ModuleInfo 资源安装插件，示例不带配置参数：

kind: ModuleInfo
apiVersion: cluster.alauda.io/v1alpha1
metadata:
  name: global-prometheus
  labels:
    cpaas.io/cluster-name: global
    cpaas.io/module-name: prometheus
    cpaas.io/module-type: plugin
spec:
  version: v4.1.0
  config:
    storage:
      type: LocalVolume
      capacity: 40
      nodes:
        - xxx.xxx.xxx.xx
      path: /cpaas/monitoring
      storageClass: ""
      pvSelectorK: ""
      pvSelectorV: ""
    replicas: 1
    components:
      prometheus:
        retention: 7
        scrapeInterval: 60
        scrapeTimeout: 45
        resources: null
      nodeExporter:
        port: 9100
        resources: null
      alertmanager:
        resources: null
      kubeStateExporter:
        resources: null
      prometheusAdapter:
        resources: null
      thanosQuery:
        resources: null
    size: Small
  valuesOverride:
    ait/chart-kube-prometheus:
      global:
        nodeSelector:
          node-role.kubernetes.io/infra: "true"
        tolerations:
        - effect: NoSchedule
          key: node-role.kubernetes.io/infra
          value: reserved
          operator: Equal

资源设置参考，示例 prometheus：

spec:
  config:
    components:
      prometheus:
        resources:
          limits:
            cpu: 2000m
            memory: 2000Mi
          requests:
            cpu: 1000m
            memory: 1000Mi

更多详情请参见监控组件容量规划

YAML 字段说明（Prometheus）：

字段路径	说明
`metadata.labels.cpaas.io/cluster-name`	插件安装的目标集群名称。
`metadata.labels.cpaas.io/module-name`	必须为 `prometheus`。
`metadata.labels.cpaas.io/module-type`	必须为 `plugin`。
`metadata.name`	ModuleInfo 名称（如 `<cluster>-prometheus`）。
`spec.version`	要安装的插件版本。
`spec.config.storage.type`	存储类型：`LocalVolume`、`StorageClass` 或 `PV`。
`spec.config.storage.capacity`	Prometheus 存储大小（Gi），建议最小 30 Gi。
`spec.config.storage.nodes`	当 `storage.type=LocalVolume` 时的节点列表，支持最多 1 个节点。
`spec.config.storage.path`	当 `storage.type=LocalVolume` 时的本地路径。
`spec.config.storage.storageClass`	当 `storage.type=StorageClass` 时的存储类名称。
`spec.config.storage.pvSelectorK`	当 `storage.type=PV` 时的 PV 选择器键。
`spec.config.storage.pvSelectorV`	当 `storage.type=PV` 时的 PV 选择器值。
`spec.replicas`	Replica 数量，仅适用于 `StorageClass`/`PV` 类型。
`spec.config.components.prometheus.retention`	数据保留天数。
`spec.config.components.prometheus.scrapeInterval`	抓取间隔秒数，适用于无 `interval` 的 ServiceMonitors。
`spec.config.components.prometheus.scrapeTimeout`	抓取超时秒数，必须小于 `scrapeInterval`。
`spec.config.components.prometheus.resources`	Prometheus 的资源配置。
`spec.config.components.nodeExporter.port`	Node Exporter 端口（默认 9100）。
`spec.config.components.nodeExporter.resources`	Node Exporter 的资源配置。
`spec.config.components.alertmanager.resources`	Alertmanager 的资源配置。
`spec.config.components.kubeStateExporter.resources`	Kube State Exporter 的资源配置。
`spec.config.components.prometheusAdapter.resources`	Prometheus Adapter 的资源配置。
`spec.config.components.thanosQuery.resources`	Thanos Query 的资源配置。
`spec.config.size`	监控规模：`Small`、`Medium` 或 `Large`。
`spec.valuesOverride.ait/chart-kube-prometheus.global.nodeSelector`	可选。监控组件的 nodeSelector，用于选择监控组件运行节点，主要用于 infra 节点。
`spec.valuesOverride.ait/chart-kube-prometheus.global.tolerations`	可选。监控组件的 tolerations，若 nodeSelector 选择了带污点节点，使用此参数指定污点容忍的 key、value 和 effect，主要用于 infra 节点。

3. 验证安装

由于创建后 ModuleInfo 名称会变化，可通过标签定位资源，检查插件状态和版本：

kubectl get moduleinfo -l cpaas.io/module-name=prometheus
NAME                                             CLUSTER         MODULE        DISPLAY_NAME   STATUS    TARGET_VERSION   CURRENT_VERSION   NEW_VERSION
global-e671599464a5b1717732c5ba36079795          global          prometheus    prometheus     Running   v4.1.0           v4.1.0            v4.1.0

字段说明：

NAME：ModuleInfo 资源名称
CLUSTER：插件安装的集群
MODULE：插件名称
DISPLAY_NAME：插件显示名称
STATUS：安装状态，Running 表示安装成功且正在运行
TARGET_VERSION：目标安装版本
CURRENT_VERSION：安装前版本
NEW_VERSION：可安装的最新版本

通过控制台安装 ACP Monitoring with VictoriaMetrics 插件

前提条件

若仅安装 VictoriaMetrics agent，需确保 VictoriaMetrics Center 已在其他集群安装。

安装流程

进入 App Store Management > Cluster Plugins，选择目标集群。
找到 ACP Monitoring with VictoriaMetrics 插件，点击 Install。

配置以下参数：

参数	说明
规模配置	支持三种配置：Small Scale、Medium Scale 和 Large Scale： - 默认值基于平台推荐的负载测试值 - 可根据实际集群规模选择或自定义配额 - 默认值会随平台版本更新，固定配置建议自定义设置
仅安装 Agent	- 关闭：安装完整 VictoriaMetrics 组件套件 - 开启：仅安装 VMAgent 采集组件，依赖 VictoriaMetrics Center
VictoriaMetrics Center	选择已安装完整 VictoriaMetrics 组件的集群
存储类型	- LocalVolume：本地存储，数据存放在指定节点 - StorageClass：通过存储类自动生成持久卷 - PV：使用已有持久卷
Replica 数量	设置监控组件 Pod 数量： - LocalVolume 存储类型不支持多副本 - 其他存储类型请根据页面提示配置
参数配置	可调整监控组件的数据参数注意：数据可能会暂时超过保留期限后再删除

点击 Install 完成安装。

通过 YAML 安装 ACP Monitoring with VictoriaMetrics 插件

1. 检查可用版本

在 global 集群中检查 ModulePlugin 和 ModuleConfig 资源，确保插件已发布：


# kubectl get moduleplugin | grep victoriametrics
victoriametrics                       30h
# kubectl get moduleconfig | grep victoriametrics
victoriametrics-v4.1.0                30h

表示集群中存在 ModulePlugin victoriametrics，且版本 v4.1.0 已发布。

2. 创建 ModuleInfo

创建 ModuleInfo 资源安装插件，示例不带配置参数：

kind: ModuleInfo
apiVersion: cluster.alauda.io/v1alpha1
metadata:
  name: business-1-victoriametrics
  labels:
    cpaas.io/cluster-name: business-1
    cpaas.io/module-name: victoriametrics
    cpaas.io/module-type: plugin
spec:
  version: v4.1.0
  config:
    storage:
      type: LocalVolume
      capacity: 40
      nodes:
        - xxx.xxx.xxx.xx
      path: /cpaas/monitoring
      storageClass: ""
      pvSelectorK: ""
      pvSelectorV: ""
    replicas: 1
    agentOnly: false
    agentReplicas: 1
    crossClusterDependency:
      victoriametrics: ""
    components:
      nodeExporter:
        port: 9100
        resources: null
      vmstorage:
        retention: 7
        resources: null
      kubeStateExporter:
        resources: null
      vmalert:
        resources: null
      prometheusAdapter:
        resources: null
      vmagent:
        scrapeInterval: 60
        scrapeTimeout: 45
        resources: null
      vminsert:
        resources: null
      alertmanager:
        resources: null
      vmselect:
        resources: null
    size: Small
  valuesOverride:
    ait/chart-victoriametrics:
      global:
        nodeSelector:
          node-role.kubernetes.io/infra: "true"
        tolerations:
        - effect: NoSchedule
          key: node-role.kubernetes.io/infra
          value: reserved
          operator: Equal

资源设置参考，示例 prometheus：

spec:
  config:
    components:
      vmagent:
        resources:
          limits:
            cpu: 2000m
            memory: 2000Mi
          requests:
            cpu: 1000m
            memory: 1000Mi

更多详情请参见监控组件容量规划

YAML 字段说明（VictoriaMetrics）：

字段路径	说明
`metadata.labels.cpaas.io/cluster-name`	插件安装的目标集群名称。
`metadata.labels.cpaas.io/module-name`	必须为 `victoriametrics`。
`metadata.labels.cpaas.io/module-type`	必须为 `plugin`。
`metadata.name`	ModuleInfo 名称（如 `<cluster>-victoriametrics`）。
`spec.version`	要安装的插件版本。
`spec.config.storage.type`	存储类型：`LocalVolume`、`StorageClass` 或 `PV`。
`spec.config.storage.capacity`	VictoriaMetrics 存储大小（Gi），建议最小 30 Gi。
`spec.config.storage.nodes`	当 `storage.type=LocalVolume` 时的节点列表，支持最多 1 个节点。
`spec.config.storage.path`	当 `storage.type=LocalVolume` 时的本地路径。
`spec.config.storage.storageClass`	当 `storage.type=StorageClass` 时的存储类名称。
`spec.config.storage.pvSelectorK`	当 `storage.type=PV` 时的 PV 选择器键。
`spec.config.storage.pvSelectorV`	当 `storage.type=PV` 时的 PV 选择器值。
`spec.replicas`	Replica 数量，LocalVolume 不支持多副本。
`spec.config.components.vmstorage.retention`	vmstorage 的数据保留天数。
`spec.config.components.vmagent.scrapeInterval`	抓取间隔秒数，适用于无 `interval` 的 ServiceMonitors。
`spec.config.components.vmagent.scrapeTimeout`	抓取超时秒数，必须小于 `scrapeInterval`。
`spec.config.components.vmstorage.resources`	vmstorage 的资源配置。
`spec.config.components.nodeExporter.port`	Node Exporter 端口（默认 9100）。
`spec.config.components.nodeExporter.resources`	Node Exporter 的资源配置。
`spec.config.components.alertmanager.resources`	Alertmanager 的资源配置。
`spec.config.components.kubeStateExporter.resources`	Kube State Exporter 的资源配置。
`spec.config.components.prometheusAdapter.resources`	Prometheus Adapter 的资源配置（用于 HPA/自定义指标）。
`spec.config.components.vmagent.resources`	vmagent 的资源配置。
`spec.config.size`	监控规模：`Small`、`Medium` 或 `Large`。
`spec.valuesOverride.ait/chart-victoriametrics.global.nodeSelector`	可选。监控组件的 nodeSelector，用于选择监控组件运行节点，主要用于 infra 节点。
`spec.valuesOverride.ait/chart-victoriametrics.global.tolerations`	可选。监控组件的 tolerations，若 nodeSelector 选择了带污点节点，使用此参数指定污点容忍的 key、value 和 effect，主要用于 infra 节点。

3. 验证安装

由于创建后 ModuleInfo 名称会变化，可通过标签定位资源，检查插件状态和版本：

kubectl get moduleinfo -l cpaas.io/module-name=victoriametrics
NAME                                             CLUSTER         MODULE            DISPLAY_NAME     STATUS    TARGET_VERSION   CURRENT_VERSION   NEW_VERSION
global-e671599464a5b1717732c5ba36079795          global          victoriametrics   victoriametrics  Running   v4.1.0           v4.1.0            v4.1.0

字段说明：

NAME：ModuleInfo 资源名称
CLUSTER：插件安装的集群
MODULE：插件名称
DISPLAY_NAME：插件显示名称
STATUS：安装状态，Running 表示安装成功且正在运行
TARGET_VERSION：目标安装版本
CURRENT_VERSION：安装前版本
NEW_VERSION：可安装的最新版本

#安装

#目录

#Overview

#安装准备

#通过控制台安装 ACP Monitoring with Prometheus 插件

#安装流程

#访问方式

#通过 YAML 安装 ACP Monitoring with Prometheus 插件

#1. 检查可用版本

#2. 创建 ModuleInfo

#3. 验证安装

#通过控制台安装 ACP Monitoring with VictoriaMetrics 插件

#前提条件

#安装流程

#通过 YAML 安装 ACP Monitoring with VictoriaMetrics 插件

#1. 检查可用版本

#2. 创建 ModuleInfo

#3. 验证安装

安装

目录

Overview

安装准备

通过控制台安装 ACP Monitoring with Prometheus 插件

安装流程

访问方式

通过 YAML 安装 ACP Monitoring with Prometheus 插件

1. 检查可用版本

2. 创建 ModuleInfo

3. 验证安装

通过控制台安装 ACP Monitoring with VictoriaMetrics 插件

前提条件

安装流程

通过 YAML 安装 ACP Monitoring with VictoriaMetrics 插件

1. 检查可用版本

2. 创建 ModuleInfo

3. 验证安装