应用灰度发布
Canary Deployment 是一种渐进式发布策略,它会将新的应用版本逐步引入给一小部分用户或流量。这种增量式发布允许团队在全面部署之前监控系统行为、收集指标并确保稳定性。该方法能显著降低风险,尤其是在生产环境中。
Argo Rollouts 是一个 Kubernetes 原生的渐进式交付控制器,用于支持高级部署策略。它通过提供 Canary、Blue-Green Deployments、Analysis Runs、Experimentation 和 Automated Rollbacks 等功能扩展了 Kubernetes 的能力。它可与可观测性栈集成,基于指标进行健康检查,并提供基于 CLI 和 dashboard 的应用交付控制。
关键概念:
- Rollout:Kubernetes 中的自定义资源定义(CRD),用于替代标准的 Deployment 资源,从而支持 blue-green、canary deployment 等高级部署控制。
- Canary Steps:一系列逐步切换流量的操作,例如先将 25% 的流量导向新版本,再将 50% 的流量导向新版本。
- Pause Steps:在进入下一个 canary step 之前,加入手动或自动验证所需的等待间隔。
Canary Deployments 的优势
- 风险缓解:通过先将变更部署到少量服务器上,你可以在全面发布之前发现并解决问题,从而将对用户的影响降到最低。
- 增量式发布:这种方式允许逐步暴露新功能,帮助你有效监控性能和用户反馈。
- 实时反馈:Canary deployments 能在真实环境条件下,立即提供新发布版本的性能和稳定性洞察。
- 灵活性:你可以根据性能指标调整部署流程,从而实现可动态暂停或回滚的发布。
- 成本效益:与 blue/green deployments 不同,canary deployments 不需要单独的环境,因此资源利用率更高。
使用 Argo Rollouts 进行 Canary Deployments
Argo Rollouts 支持使用 canary deployment strategy 来发布 Deployment,并通过 Gateway API Plugin 控制流量。在 ACP 中,你可以使用 ALB 作为 Gateway API Provider,为 Argo Rollouts 实现流量控制。
前提条件
- 集群中已安装带有 Gateway API plugin 的 Argo Rollouts。
- Argo Rollouts kubectl plugin(从这里安装)。
- 一个用于创建 namespace 的 project。
- 集群中已部署 ALB,并已分配给该 project。
- 集群中用于部署应用的 namespace。
操作步骤
创建 Deployment
首先定义应用的“stable”版本,也就是用户当前访问的版本。创建一个 Kubernetes Deployment,并配置适当数量的副本、容器镜像版本(例如 hello:1.23.1)以及正确的标签,例如 app=web。
使用以下 YAML:
YAML 字段说明:
apiVersion:用于创建该资源的 Kubernetes API 版本。kind:指定这是一个 Deployment 资源。metadata.name:Deployment 的名称。spec.replicas:期望的 Pod 副本数。spec.selector.matchLabels:定义 Deployment 如何查找要管理的 Pod。template.metadata.labels:应用于 Pod 的标签,供 Service 选择它们。spec.containers:每个 Pod 中运行的容器。containers.name:容器名称。containers.image:要运行的 Docker 镜像。containers.ports.containerPort:容器暴露的端口。
使用 kubectl 应用配置:
这会完成生产环境的准备。
另外,你也可以使用 Helm Chart 来创建这些 Deployments 和 Services。
创建 Stable Service
创建一个 Kubernetes Service,用于暴露 stable deployment。该 Service 会根据匹配标签,将流量转发到 stable 版本的 Pod。最初,Service selector 会选择带有 app=web 标签的 Pod。
YAML 字段说明:
apiVersion:用于创建该 Service 的 Kubernetes API 版本。kind:指定该资源是一个 Service。metadata.name:Service 的名称。spec.selector:基于标签识别要将流量路由到哪些 Pod。ports.protocol:使用的协议(TCP)。ports.port:Service 暴露的端口。ports.targetPort:流量转发到容器上的端口。
使用以下命令应用:
这会允许外部访问 stable deployment。
创建 Canary Service
创建一个 Kubernetes Service,用于暴露 canary deployment。该 Service 会根据匹配标签,将流量转发到 canary 版本的 Pod。最初,Service selector 会选择带有 app=web 标签的 Pod。
YAML 字段说明:
apiVersion:用于创建该 Service 的 Kubernetes API 版本。kind:指定该资源是一个 Service。metadata.name:Service 的名称。spec.selector:基于标签识别要将流量路由到哪些 Pod。ports.protocol:使用的协议(TCP)。ports.port:Service 暴露的端口。ports.targetPort:流量转发到容器上的端口。
使用以下命令应用:
这会允许外部访问 canary deployment。
创建 Gateway
使用 example.com 作为访问服务的域名,创建 Gateway 以通过该域名暴露服务:
使用以下命令:
Gateway 将分配到一个外部 IP 地址,请从 gateway 资源中 status.addresses 里类型为 IPAddress 的项获取该 IP 地址。
DNS 配置
在你的 DNS server 中配置该域名,将域名解析到 Gateway 的 IP 地址。使用以下命令验证 DNS 解析:
它应返回 Gateway 的地址。
创建 HTTPRoute
使用以下命令:
访问 Stable service
在集群外部,使用以下命令通过域名访问服务:
或者你也可以在浏览器中访问 http://example.com。
创建 Rollout
接下来,使用 Canary strategy 创建 Argo Rollouts 的 Rollout 资源。
YAML 字段说明:
-
spec.selector:Pod 的标签选择器。该选择器匹配到的现有 ReplicaSet 将会受到此 Rollout 的影响。它必须与 Pod template 的标签匹配。 -
workloadRef:指定要应用 Rollout 的工作负载引用以及缩容策略。 -
scaleDown:指定迁移到 Rollout 后是否缩减工作负载(Deployment)。可选项如下:"never":不缩减 Deployment。"onsuccess":当 Rollout 变为 healthy 后缩减 Deployment。"progressively":随着 Rollout 扩容,Deployment 逐步缩容;如果 Rollout 失败,Deployment 会再次扩容。
-
strategy:Rollout 策略,支持BlueGreen和Canary策略。 -
canary:Canaryrollout strategy 的定义。canaryService:指向一个 Service,控制器会更新它以选择 canary Pod。流量路由必需。stableService:指向一个 Service,控制器会更新它以选择 stable Pod。流量路由必需。steps:定义在 canary 更新期间要执行的一系列步骤。初次部署 Rollout 时会跳过这些步骤。setWeight:设置 canary ReplicaSet 的比例。pause:暂停 Rollout,直到无限期或指定时间。支持的单位:s、m、h。{}表示无限期暂停。plugin:执行配置的插件,这里配置的是gatewayAPI插件。
使用以下命令应用:
这会为 Deployment 设置 Canary strategy 的 Rollout。它会先将权重设置为 50,并等待推进。50% 的流量将转发到 canary service。推进 Rollout 之后,权重会被设置为 100,100% 的流量将转发到 canary service。最后,canary service 将成为 stable service。
验证 Rollouts
创建 Rollout 之后,Argo Rollouts 会创建一个与 Deployment 模板相同的新 ReplicaSet。只要新 ReplicaSet 的 Pod 处于 healthy 状态,Deployment 就会缩减为 0。
使用以下命令确认 Pod 运行正常:
准备 Canary Deployment
接下来,准备应用的新版本作为 green deployment。将 deployment web 更新为新的镜像版本(例如 hello:1.23.2)。使用以下命令:
这会为测试准备新的应用版本。
Rollout 会创建一个新的 ReplicaSet 来管理 canary Pod,并且 50% 的流量会转发到 canary Pod。使用以下命令进行验证:
目前有 3 个 Pod 正在运行,分别是 stable 和 canary 版本。权重为 50,因此 50% 的流量会转发到 canary service。发布流程已暂停,等待推进。
如果你使用 Helm Chart 部署应用,请使用 Helm 工具将应用升级到 canary 版本。
访问 http://example.com 时,50% 的流量会转发到 canary service。你应该会从该 URL 得到不同的响应。
推进 Rollout
当 canary 版本测试通过后,你可以推进 Rollout,将所有流量切换到 canary Pod。使用以下命令:
验证 Rollout 是否完成:
如果 stable 的 Images 已更新为 hello:1.23.2,并且 revision 1 的 ReplicaSet 已缩减到 0,这就表示 Rollout 已完成。
访问 http://example.com 时,100% 的流量会转发到 canary service。
中止 Rollout(可选)
如果你在发布过程中发现 canary 版本存在问题,可以中止该流程,将所有流量切换回 stable service。使用以下命令:
验证结果:
访问 http://example.com 时,100% 的流量会转发到 stable service。