部署规划

本主题提供了在 Alauda Container Platform (ACP) 上部署 Ceph 分布式存储的规划清单。它总结了架构选择、安全选项、基础设施规模、网络限制和灾难恢复考虑,帮助您在实际安装之前确定部署模型。

有关产品背景,请参见简介架构。有关部署流程,请参见安装操作指南下的文档。

部署架构

ACP 分布式存储基于 Ceph 和 Rook。从高层来看,平台结合了以下层次:

  • Ceph 守护进程,如 MON、MGR、OSD、MDS 和 RGW,提供块存储、文件存储和对象存储能力
  • Rook 和 CSI 组件,用于自动化部署、配置、扩容和生命周期管理
  • ACP 平台集成,暴露存储池、可观测性和运维入口

部署前,需决定环境是使用本地集群的存储服务,还是消费外部 Ceph 环境的存储。

内部与外部部署模型

您可以按以下方式规划 ACP 分布式存储:

部署模式存储服务运行位置存储集群管理方适用场景关键权衡
内部,共存部署Ceph 组件运行在与业务工作负载相同的 ACP 工作节点上ACP 平台团队或集群管理员初期环境、裸金属集群或存储需求尚不明确的情况部署简单,但应用与存储间资源争用可能性较大
内部,专用节点部署Ceph 组件运行在同一 ACP 集群内的专用存储或基础设施节点上ACP 平台团队或集群管理员生产环境,存储需求可预测且隔离要求较高运维隔离和容量控制更好,但需要预留更多节点和容量规划
外部部署ACP 从外部 Ceph 环境消费存储类独立存储团队、SRE 团队或已有的外部存储所有者大规模环境、多消费集群或已有独立 Ceph 集群的组织所有权边界清晰,但跨集群网络、认证和依赖管理更复杂

内部部署更易于推广和管理,因为存储服务和消费工作负载都规划在同一 ACP 环境内。内部部署的首个设计选择是存储是否与业务工作负载共享节点,还是使用专用节点。外部部署适用于需要更强隔离的存储与应用集群,或多个业务集群共享同一存储后端的场景。

主要规划决策点:

  • 需要快速部署且能容忍存储与应用共享同一工作节点池时,选择共存部署。
  • 存储需求明确,且希望有更清晰的容量控制、故障隔离和维护边界时,选择专用节点部署。
  • 存储已由其他团队管理,或单个外部集群需服务多个 ACP 集群时,选择外部部署。

节点角色

规划节点布局时,应区分控制平面节点、基础设施节点和工作节点的职责:

  • 控制平面节点负责集群管理功能,除非部署模型明确支持,否则不应作为通用存储节点。
  • 基础设施节点适合隔离存储平台组件与业务工作负载。
  • 工作节点可在共存部署中承载存储服务,但会增加应用与存储守护进程间的资源争用。

生产环境建议规划至少三个故障域以实现高可用存储服务。尽可能将存储节点分布在机架、区域或主机组中。

安全考虑

部署前确认存储设计是否需要传输加密,并在启用前验证其对运维的影响。

传输加密

ACP 当前支持 Ceph 分布式存储的传输加密。该功能保护 Ceph 组件与客户端之间的流量,通常围绕 Ceph msgr2 和集群网络模型进行规划。

启用传输加密前,请确认:

  • 存储和客户端节点的内核及操作系统支持情况
  • 繁忙存储节点的预期 CPU 开销
  • 目标硬件上的吞吐量和延迟影响

有关实现细节,请参见配置传输加密

基础设施要求

最低与推荐配置

创建集群前规划节点数量、存储设备和可用资源。

项目最低配置推荐配置
存储节点3 个节点3 个或更多节点,分布于多个故障域
存储设备每节点至少 1 个可用存储设备每节点多个专用设备,类型和容量保持一致
节点分布3 个节点可承载 Ceph 服务3 个故障域,如机架或区域
设备使用系统盘与存储盘分离Ceph 数据使用专用裸盘,预留未来扩容空间

集群至少应有三节点,每节点至少一个可用存储设备。生产环境建议跨至少三个故障域部署,并预留足够资源以应对重平衡、修复和未来增长。

资源规模规划

Ceph 存储服务持续消耗 CPU、内存和设备容量。先规划存储守护进程资源,再预留恢复、重平衡、升级和后台任务的额外空间。

基线建议:

  • 至少三台存储节点以保证高可用集群
  • 预留 MON、MGR、OSD 及启用的 MDS 或 RGW 服务的 CPU 和内存
  • 保留新存储池、额外设备和集群恢复的增长空间
  • 避免初期部署即接近资源饱和

若设计采用专用存储节点,资源规划更可预测。若存储与业务工作负载共存,应预留额外空间以缓冲峰值负载和节点故障时的争用。

集群总体规划预算

早期规模规划应从集群总体预算出发,而非仅从单组件值开始。下表为三节点高可用集群的规划参考:

部署模式存储预留总 CPU存储预留总内存备注
内部,最低基线24 逻辑 CPU72 GiB满足最低部署目标的入门级三节点规划基线
内部,标准基线30 逻辑 CPU72 GiB更适合一般生产规划和未来扩容
内部,性能导向基线45 逻辑 CPU96 GiB适用于从一开始就需要更高吞吐量或更低延迟的场景
外部消费集群仅按连接和客户端访问需求规划仅按连接和客户端访问需求规划存储守护进程运行于 ACP 集群外,ACP 集群主要需网络可达性、凭据和客户端容量

以上数值为集群级规划目标,非精确调度保留。三节点集群的单节点预算可将总数均分至参与存储节点。

以下推荐适合早期规划:

组件推荐 CPU推荐内存
MON2 核3 GiB
MGR3 核4 GiB
MDS3 核8 GiB
RGW2 核4 GiB
OSD4 核8 GiB

以上为规划参考,非硬性调度保证。实际需求取决于设备数量、启用服务和负载强度。

如何估算集群规模

规划集群规模时,按以下顺序进行:

  1. 选择部署模式:共存、专用节点或外部。
  2. 确定最小节点数和故障域布局。
  3. 决定是否需要块存储、文件存储、对象存储或混合服务。
  4. 从集群总体规划预算开始。
  5. 预留额外空间以支持新增设备集、恢复、监控和预期增长。

若同时需要文件和对象服务,或集群将承载重业务负载,应高于最低基线规划。

Pod 调度

Pod 调度规则直接影响弹性。规划集群时应确保:

  • 高可用组件分布于不同故障域
  • 每个故障域均有可访问存储设备和足够可分配资源
  • 新设备集或未来扩容仍可遵循相同调度模式

实际中,仅有三节点不足,节点还需分布合理,避免单一机架、主机组或区域成为单点故障。

存储设备规划

选型时尽量统一设备容量和类型。混合设备增加性能调优和容量规划难度。

遵循以下原则:

  • 预留一块系统盘用于操作系统,Ceph 数据使用独立存储设备
  • 优先使用裸盘或专用设备,避免共享盘分区
  • 控制每节点设备数量,确保恢复和维护可行
  • 关注可用容量而非原始容量,因复制机制降低有效存储空间

容量规划还应包含告警阈值和扩容策略。应在集群接近满载前规划扩容,避免满载带来的重平衡压力和恢复难度。

相关运维指导请参见存储池管理添加设备/设备类

容量规划

规划集群容量时,应计算可用容量而非原始磁盘容量。复制 Ceph 部署中,部分原始存储用于数据保护。

规划原则:

  • 保持可用容量领先于预期业务增长,避免仅在接近满载时扩容
  • 预留恢复、重平衡、快照和临时数据峰值的额外空间
  • 跨节点和故障域均衡扩容,避免新容量造成利用率偏斜
  • 添加新工作负载前,审查当前利用率和预测增长

以下示例为三节点集群、每节点一设备、3 副本数据保护策略的早期规划参考:

每节点设备容量原始集群容量3 副本近似可用容量
0.5 TiB1.5 TiB0.5 TiB
2 TiB6 TiB2 TiB
4 TiB12 TiB4 TiB

以上仅为示例。可用容量随实际数据保护策略变化,不应作为所有集群设计的通用规则。

二次运维时,应在集群达到告警级别前复核容量。若增长可预测,应提前扩容,避免满载或接近满载状态。

网络要求

Ceph 对网络质量敏感。部署前验证:

  • 集群网络能稳定提供复制和恢复流量的吞吐量
  • 故障域间延迟符合所选部署模型支持范围
  • 存储节点与消费集群间所需端口已开放
  • 任何专用网络设计(如基于 Multus 的隔离)已提前确定

若计划隔离存储流量与普通应用流量,部署前确认网络接口、路由策略和运维归属。网络隔离提升安全和性能,但增加设计复杂度。

IPv6 支持

ACP 分布式存储规划需遵循平台选定的集群网络栈。

  • 支持单栈 IPv6 环境。
  • 双栈规划需在存储部署前验证与 ACP 集群网络设计的兼容性。
  • 存储节点和客户端节点应使用相同地址族策略,避免连接和服务发现问题。

若环境使用 IPv6,安装前确认:

  • ACP 集群网络已配置支持 IPv6
  • 所有存储节点可通过所需 IPv6 路由通信
  • 访问存储端点的监控、告警和外部集成也支持 IPv6

IPv6 应作为安装时的架构决策,不应假设现有 IPv4 设计可无须重新验证直接转换。

灾难恢复规划

ACP 分布式存储可根据恢复点目标 (RPO)、恢复时间目标 (RTO) 和站点拓扑规划不同恢复模型。

区域灾备 (Regional-DR)

ACP 支持区域灾备,适用于跨地域或跨站点的异步复制场景,允许少量潜在数据丢失。

规划区域灾备时,提前确认:

  • 源集群和目标集群存储及网络设计兼容
  • 复制延迟和故障切换预期符合业务恢复目标
  • 受保护的工作负载类型明确,如块存储、文件系统或对象数据

实现细节请参见灾难恢复

Stretch 集群

Stretch 集群仅适用于站点间延迟严格受控且拓扑专门设计的场景。一般规划要求:

  • 两个数据站点和一个仲裁或仲裁站点
  • 至少五个节点,分布于三个区域
  • 集群创建前手动明确故障域标签
  • 每个数据站点有足够节点保障存储服务可用性
  • 站点间延迟保持低延迟设计范围,通常数据站点间 RTT 不超过 10 毫秒
WARNING

Stretch 集群不应作为长距离、高延迟、多数据中心部署的通用方案。若站点间延迟不可严格控制,应采用专用灾难恢复架构。

ACP 相关 Stretch 集群部署指导请参见创建 Stretch 类型集群

性能规划

性能规划应基于工作负载特性,而非仅凭设备数量。部署前识别:

  • 主要工作负载是块存储、文件存储还是对象存储
  • 工作负载是延迟敏感、吞吐量敏感还是容量密集
  • 热数据、备份流量或分析任务是否主导集群

还需确认是否需要特殊调优或特定功能设计。例如,对象工作负载可能需单独规划网关容量,部分环境可能需缓存导向或专用集群设计。

后续步骤

完成规划后,进入匹配所选部署模型的部署指南:

内部部署

外部部署

相关后续配置