规划 Monitoring 的 infra 节点

概述

本文说明如何为 Monitoring 插件规划和配置 infra 节点。请使用插件配置将 Monitoring 工作负载放置到 infra 节点上,而不是在安装后通过 patch 生成的工作负载。

支持的配置方式

  • 对于 ACP Monitoring with Prometheus,可以在控制台的 Advanced Configuration 中配置放置方式,也可以在 YAML 中通过 Installation 里的 spec.config.components.nodeSelectorspec.config.components.tolerations 进行配置。
  • 对于 ACP Monitoring with VictoriaMetrics,可以在控制台的 Advanced Configuration 中配置放置方式,也可以在 YAML 中通过 Installation 里的 spec.config.components.nodeSelectorspec.config.components.tolerations 进行配置。

不要将 patch 生成的 Deployments、StatefulSets 或其他由插件管理的工作负载作为将 Monitoring 工作负载放置到 infra 节点上的标准方式。

配置放置方式之前

在配置放置方式之前,请确保满足以下条件:

  • 根据 Cluster Node Planning 规划 infra 节点。
  • 确认你的存储是否使用 LocalVolume 或其他带有 spec.nodeAffinity 的持久卷。
  • 确保所选的 infra 节点同时满足调度规则和存储放置约束。

在控制台中配置放置方式

Prometheus

在控制台中安装或升级 ACP Monitoring with Prometheus 时,展开 Advanced Configuration 并配置以下字段:

Console fieldDescription
Node Selectors为 Prometheus 工作负载设置插件级 node selector 规则。
Node Tolerations为 Prometheus 工作负载设置插件级 toleration 规则。

VictoriaMetrics

在控制台中安装或升级 ACP Monitoring with VictoriaMetrics 时,展开 Advanced Configuration 并配置以下字段:

Console fieldDescription
Node Selectors为 VictoriaMetrics 工作负载设置插件级 node selector 规则。
Node Tolerations为 VictoriaMetrics 工作负载设置插件级 toleration 规则。

在 YAML 中配置放置方式

Prometheus

如果你希望 Prometheus 插件工作负载运行在专用的 infra 节点上,请在安装或升级期间配置插件级调度规则。

示例:

spec:
  config:
    components:
      nodeSelector:
        - key: kubernetes.io/os
          value: linux
      tolerations:
        - effect: NoSchedule
          key: node-role.kubernetes.io/infra
          operator: Exists

VictoriaMetrics

如果你希望 VictoriaMetrics 插件工作负载运行在专用的 infra 节点上,请在安装或升级期间配置插件级调度规则。

示例:

spec:
  config:
    components:
      nodeSelector:
        - key: kubernetes.io/os
          value: linux
      tolerations:
        - effect: NoSchedule
          key: node-role.kubernetes.io/infra
          operator: Exists

storage.typeLocalVolume 时,可以选择一个或多个节点。请确保每个选中的存储节点也符合已配置的 node selector 规则。

故障排查

Monitoring 工作负载仍然被调度到通用节点上

请检查以下项:

  • 目标节点具有预期的标签。
  • 已配置的 tolerations 与 infra 节点上的 taints 匹配。
  • 已使用最新的调度配置对插件进行了升级或重新应用。

Monitoring 工作负载无法调度到所选的 infra 节点上

此问题通常表示所选节点不满足一个或多个调度或存储约束。

常见原因:

  • infra 节点没有 nodeSelector 引用的标签。
  • infra 节点存在未被已配置 tolerations 覆盖的 taints。
  • 所选 LocalVolume 节点或 PV nodeAffinity 规则指向了 infra 节点组之外的节点。

了解更多

后续操作

  • 验证 Monitoring 工作负载是否运行在预期的 infra 节点上。
  • 检查所选的 infra 节点是否仍然满足容量规划目标。