创建 Stretch 类型集群
Stretch 集群可以跨越两个地理位置不同的站点,提供存储基础设施的灾难恢复能力。当两个可用区中的一个完全不可用时,Ceph 仍能保持可用性。
术语
典型部署方案
以下内容提供了 Stretch 集群的典型部署方案,以及组件说明和灾难恢复原理。
组件说明
节点需要分布在三个可用区,包括两个数据可用区和一个仲裁可用区。
-
两个数据可用区均需完整部署所有核心 Ceph 组件(MON、OSD、MGR、MDS、RGW),且每个数据可用区必须配置两个 MON 实例以实现高可用。当同一数据可用区内的两个 MON 实例均不可用时,系统将判定该可用区处于故障状态。
-
仲裁可用区只需部署一个 MON 实例,作为仲裁决策节点。

灾难恢复说明
-
当某个数据可用区完全故障时,Ceph 集群会自动进入降级状态并触发告警通知。系统会将存储池的最小副本数(min_size)从默认的 2 调整为 1。由于另一个数据可用区仍保持双副本,集群依然可用。当故障数据可用区恢复后,系统会自动执行数据同步并恢复至健康状态;若故障无法修复,建议更换为新的数据可用区。
-
当两个数据可用区之间的网络连接中断,但仍能正常连接仲裁可用区时,仲裁可用区会根据预设策略对两个数据可用区进行仲裁,选择状态较好的数据可用区继续作为主数据区提供服务。
约束与限制
-
存储池限制:不支持纠删码存储池,仅支持副本机制进行数据保护。
-
设备分类限制:不支持设备类功能,无法基于设备特性进行存储分层。
-
区域部署限制:仅支持两个数据可用区,不允许超过两个数据可用区。
-
数据均衡要求:两个数据可用区的 OSD 权重必须严格保持一致,以确保数据分布均衡。
-
存储介质要求:仅允许全闪(All-Flash)OSD 配置,最大限度减少连接恢复后的恢复时间,降低数据丢失风险。
-
网络延迟要求:两个数据可用区间的 RTT(往返时延)不得超过 10ms,仲裁可用区必须满足 ETCD 规范的延迟要求,以保证仲裁机制的可靠性。
前提条件
请提前将集群中的全部或部分节点划分为三个可用区,具体如下:
-
确保至少 5 个节点分布在一个仲裁可用区和两个数据可用区中。其中,仲裁可用区至少包含一个节点,该节点可以是虚拟机或云主机。
-
确保三个可用区中至少有一个可用区包含 Master 节点(控制节点)。
-
确保至少 4 个计算节点均匀分布在两个数据可用区,每个数据可用区至少配置 2 个计算节点。
-
尽量保证两个数据可用区中的节点数量和磁盘配置一致。
操作步骤
标记节点
-
进入 管理员。
-
在左侧导航栏点击 集群管理 > 集群。
-
点击对应集群名称,进入集群概览页面。
-
切换到 节点 标签页。
-
根据前提条件中的规划,为这些节点添加
topology.kubernetes.io/zone=<zone>标签,将其划分到指定的可用区。此处将 <zone> 替换为可用区名称。
创建存储服务
本文档仅描述与标准类型集群不同的参数,其他参数请参考创建标准类型集群。
创建集群
创建存储池
相关操作
创建标准类型集群
详情请参考创建标准类型集群。
清理分布式存储
详情请参考清理分布式存储。