概览
Alauda Container Platform 提供两种类型的备份和恢复操作:
- 集群备份和恢复:备份和恢复控制平面数据,包括 etcd、registry、日志和监控数据。
- 应用备份和恢复:基于 Velero 备份和恢复应用及其持久卷。
目录
集群备份和恢复etcd 备份和恢复Registry 备份和恢复日志备份和恢复监控备份和恢复应用备份和恢复架构应用安装备份和恢复应用备份注意事项Immutable OS 集群使用场景当前集群内的备份和恢复跨集群应用迁移集群备份和恢复
集群备份保护控制平面状态和平台数据。
etcd 备份和恢复
etcd 是 Alauda Container Platform 的键值存储,持久化所有资源对象的状态。etcd 备份在灾难恢复中起着关键作用。
详细说明请参见 etcd Backup and Restore。
Registry 备份和恢复
有关 registry 备份和恢复,请参见 Alauda Container Platform Registry Data Backup and Recovery。
日志备份和恢复
当前支持 ClickHouse。请联系技术支持。
监控备份和恢复
有关监控备份和恢复,请参见 VictoriaMetrics Backup and Recovery。
应用备份和恢复
作为集群管理员,您可以使用 Velero 备份和恢复运行在 Alauda Container Platform 上的应用。
架构
应用备份和恢复由两个组件组成:
- Alauda Container Platform Data Backup Essentials:提供 UI,安装在 global 集群上。
- Alauda Container Platform Data Backup for Velero:提供 Velero,安装在工作负载集群上。
应用安装
启用应用备份和恢复:
- 从 Customer Portal 下载 Alauda Container Platform Data Backup Essentials 和 Alauda Container Platform Data Backup for Velero。
- 将软件包上传到平台。
- 在 global 集群上安装 Data Backup Essentials。
- 在工作负载集群上安装 Data Backup for Velero。
安装完成后,配置备份仓库以存储备份数据。
备份和恢复应用
通过创建备份计划来备份应用,通过执行恢复任务来恢复应用。
详细说明请参见:
备份注意事项
在配置备份策略前,请考虑以下影响备份和恢复策略的架构因素。
Immutable OS 集群
对于运行在 Immutable OS 上的集群,不需要且不推荐使用 VM Snapshot 作为灾难恢复的备份策略。
不推荐使用 VM Snapshot 的原因:
- Immutable OS 设计:操作系统层为只读,由平台集中管理。节点故障时,平台会自动创建配置正确的新节点。
- 分布式系统特性:Kubernetes 是分布式系统,VM Snapshot 无法捕获分布式组件(如 etcd quorum)的状态一致性。
- 灾难恢复限制:VM Snapshot 通常与原始数据存储在一起,无法应对站点级灾难。
推荐的备份方案:
- 集群状态:使用 etcd 备份捕获控制平面状态
- 应用数据:使用 PV 快照或 Restic 备份持久卷
- 集群配置:使用 GitOps/IaC 进行配置管理
使用场景
当前集群内的备份和恢复
在误删或故障后,将应用恢复到当前集群。恢复过程中通常无需修改应用资源。
跨集群应用迁移
常见场景包括:
- 跨数据中心的开发和测试
- 集群间的资源迁移
- 从生产集群到开发/测试集群的复制
注意事项:
- 确保源集群和目标集群的 CPU 和内存规格相近
- 保持网络模式一致,避免资源恢复异常
- 若子网不同,恢复后 Pod IP 会发生变化
- 恢复数据前评估是否需要迁移镜像