从 Alauda Build of OpenTelemetry 迁移到 Alauda Build of OpenTelemetry v2
本文档说明如何将现有的 Alauda Build of OpenTelemetry(基于上游 OpenTelemetry Operator/Collector 0.108.0 构建)部署迁移到 Alauda Build of OpenTelemetry v2(基于上游 0.147.0 构建)。
这两个发行版分别通过不同的 OLM package——opentelemetry-operator 和 opentelemetry-operator2——交付,但它们拥有相同的 Custom Resource Definitions(OpenTelemetryCollector 和 Instrumentation)。OLM 不允许两个 Operator 同时拥有相同的 CRD,因此迁移必须以先卸载 v1,再安装 v2的方式进行,而不能以并行升级的方式进行。
概述
v1 与 v2 之间的变化
- 由于 v1 Operator(
opentelemetry-operator)和 v2 Operator(opentelemetry-operator2)共享 CRD 所有权,因此必须先将 v1 完全卸载后,才能安装 v2。迁移期间 CRD 本身会被保留;v2 Operator 在安装时会接管并升级这些 CRD。
迁移停机窗口
在删除 v1 OpenTelemetryCollector 到 v2 OpenTelemetryCollector 就绪之间,遥测数据采集会中断。应用 Pod 会继续正常运行,但在此间隙生成的遥测数据可能会临时缓冲,如果无法及时导出则可能被丢弃。请在低流量时段执行迁移,并提前通知遥测使用方。
迁移流程概览
先决条件
- 集群管理员使用
cluster-admin角色登录的活动 ACP CLI(kubectl)会话。 - 已安装
jq命令行 JSON 处理器。 - 当前集群中已安装 Alauda Build of OpenTelemetry(v1)。
- 如果任何服务使用 OTel Java 自动注入,则注册表中应存在一个可被集群访问的 Java 自动注入镜像。请参见准备 Java agent 镜像。不使用 OTel Java 自动注入的服务不需要此镜像。
- 已通知遥测消费者(例如 Jaeger、Prometheus、平台 Tracing 控制台)和应用所有者计划中的停机窗口。
迁移前任务
清点现有部署
在进行任何更改之前,请先采集当前状态,以便了解迁移范围并生成用于回滚的备份。
-
列出 v1 Operator 资源:
-
列出现有的 OpenTelemetry 自定义资源:
-
列出当前依赖 Java 自动注入的工作负载:
备份 v1 资源
导出 v1 资源,以便后续在 v2 中重建它们(必要时也可用于回滚)。
备份文件仅用于配置参考和回滚工件。cpaas-system 中的 ServiceMonitor、ServiceAccount 和 ClusterRoleBinding 备份,仅在你之后回滚依赖这些 v1 资源的集成时才需要。在 v2 上重建资源时,请遵循安装 Alauda Build of OpenTelemetry v2中描述的 v2 约定,并根据需要进行调整。
准备 Java agent 镜像
在 v1 中,Alauda 会随 Operator 提供一个定制的 Java 自动注入镜像,并由 Operator 自动注入;用户通常无需设置 Instrumentation.spec.java.image。在 v2 中,Operator 不再提供 Java agent 镜像,你必须在每个面向 Java 工作负载的 Instrumentation 资源上显式设置 spec.java.image。详情请参见Java 自动注入。
OpenTelemetry Java agent 已从 1.x 系列迁移到 2.x 系列。某些自动生成的指标名称和属性与 v1 生成的不同。如果你的仪表板或告警依赖特定的指标名称,请查看上游 Java agent release notes 中的变更,并相应更新。
检查 Collector 配置兼容性
Alauda Build of OpenTelemetry v2 支持 v2.0.0 Release Notes 中列出的组件。请检查现有 OpenTelemetryCollector 资源中引用的每个 receiver、processor、exporter、connector 和 extension,并确认:
- 每个组件都包含在 v2 支持的组件列表中。
- 配置语法与上游
0.147.0schema 匹配。部分字段在上游版本演进过程中已发生变化。例如,spec.config.service.telemetry.metrics的配置结构在两个版本之间不同。
如果你有预生产环境,那么先在该环境中将 v1 配置应用到新安装的 v2 Operator,是在生产迁移前暴露不兼容问题的有效方式。
迁移操作步骤
删除 v1 Instrumentation 资源
-
列出现有的
Instrumentation资源: -
删除每个
Instrumentation资源。将<namespace>和<name>替换为上一步中的值:TIP删除
Instrumentation不会影响已经被 webhook 修改过的应用 Pod——此前注入的 init container、环境变量和JAVA_TOOL_OPTIONS会继续保留在运行中的 Pod 中。删除操作只会阻止 v1 Operator 将这些内容注入到新创建的 Pod 中。
删除 v1 OpenTelemetryCollector 资源
-
列出现有的
OpenTelemetryCollector资源: -
删除每个
OpenTelemetryCollector资源:
执行完此步骤后,v1 Collector 暴露的 OTLP、Jaeger 和 Zipkin 端点将不再可用。继续导出遥测的应用 Pod 会看到导出错误,直到在步骤 5中创建 v2 Collector。
卸载 v1 Operator
-
删除
Subscription: -
删除 v1 部署在
cpaas-system中创建的 RBAC 和监控资源(如果你的 v1 部署未创建这些资源,则跳过此步骤)。这些资源已在备份 v1 资源中备份,可用于回滚。 -
等待集群中不再存在任何 v1 Operator CSV。此检查非常重要——如果仍有任何 v1 CSV 存在,OLM 会因为 CRD 所有权冲突而拒绝在步骤 4中安装 v2 Operator。
期望输出为空。
不要删除 opentelemetrycollectors.opentelemetry.io 和 instrumentations.opentelemetry.io 这两个 CRD。v2 Operator 安装时会接管并升级这些 CRD。保留它们也便于你根据备份 v1 资源中的备份文件回滚到 v1。
安装 v2 Operator
请按照安装 Alauda Build of OpenTelemetry v2 Operator中的说明执行。精简后的 CLI 流程如下:
-
确认可用的 v2 Operator 版本:
-
创建 Operator 命名空间:
-
创建
Subscription。将startingCSV替换为第 1 步返回的版本。 -
批准
InstallPlan: -
等待 v2 CSV 达到
Succeeded:
重建 OpenTelemetryCollector 资源
此次迁移会带来哪些变化
当你根据 v1 备份重建 OpenTelemetryCollector 清单时,在应用到 v2 之前,必须调整以下方面。
-
Collector 命名空间。Collector 命名空间必须与 Operator 命名空间(
opentelemetry-operator2)不同。请根据你的部署场景选择命名空间:- 独立 Collector:使用专用命名空间,例如
opentelemetry-collector。 - Alauda Container Platform Tracing 集成:继续使用相同的 Collector 命名空间(通常为
cpaas-system),这样引用 Collector service 的下游服务就无需更改。 - Alauda Service Mesh v2 集成:继续将 Collector 放在
istio-system中,这样现有的IstiomeshConfig.extensionProviders[].opentelemetry.service仍然有效。
- 独立 Collector:使用专用命名空间,例如
-
组件兼容性。
spec.config中使用的每个组件都必须受 v2 支持。关于与Alauda Distributed Tracing集成时推荐的 Collector 配置,请参见 Alauda Distributed Tracing 文档中的部署 OpenTelemetry Collector。对于其他场景,请遵循部署 OpenTelemetry Collector并根据你的环境调整示例。 -
Feature gates。v1 Collector 通常通过
spec.args.feature-gates传递 Collector feature gates。随着 Collector 版本升级,其中许多 gate 要么已稳定(因此不再可切换),要么已完全移除,因此直接复用 v1 的列表可能会导致 v2 Collector Pod 无法启动。请从备份中移除spec.args.feature-gates,并且只重新引入 v2 Collector 当前版本明确记录的 gate。 -
内部指标 Prometheus 端点。
service.telemetry.metrics.address字段不再是公开内部指标 Prometheus 端点的受支持方式。请改为在service.telemetry.metrics.readers[].pull.exporter.prometheus下进行配置,如 OpenTelemetry Collector internal telemetry 文档所述。典型的 v1 备份如下: -
内部指标详细程度。
level: detailed会为 Collector 自身的内部指标启用 histogram bucket 和按实例标签,这会显著增加 Prometheus 的时间序列基数和存储成本——尤其是在有大量 receiver/exporter 实例的 Gateway 模式部署中。生产环境推荐使用默认的level: normal:它仍会暴露进程资源使用情况以及按组件划分的 sent/received/refused/dropped 计数器,这已足以满足大多数 SRE 告警和容量需求。仅在调查 exporter 延迟分布或 batch 大小问题时,才临时切回detailed。 -
服务器管理的元数据。由 API server 写入的字段(
metadata.creationTimestamp、metadata.resourceVersion、metadata.uid、metadata.generation、metadata.managedFields、metadata.finalizers、kubectl.kubernetes.io/last-applied-configuration注解以及status)不能在创建时复用,必须从备份中清除。 -
Operator 管理的 RBAC 和 Prometheus 抓取。v2 Operator 会自动创建 Collector 所需的
ServiceAccount和ClusterRoleBinding资源。请从备份中删除 v1 的spec.serviceAccount字段,以便 Operator 可以使用正确权限创建新的ServiceAccount;通常无需手动重建 v1 RBAC 资源。若要让 Operator 也为内部 Prometheus 端点创建ServiceMonitor,请设置spec.observability.metrics.enableMetrics: true,并在metadata.labels中添加一个发现标签(例如prometheus: kube-prometheus),以便你的 Prometheus Operator 实例能够拾取该资源。如果某个 Collector 组件需要额外的集群级 RBAC(例如k8sattributesprocessor 或k8sobjectsreceiver),请参见自动创建所需的 RBAC 资源。
迁移操作步骤
-
根据备份重建
OpenTelemetryCollector资源。下面的示例将./otel-v1-backup/collectors.yaml复制到新的工作目录,移除服务器管理的元数据,删除 v1 的spec.serviceAccount和spec.args.feature-gates字段,将level: detailed降级为默认的level: normal,用新的readers配置替换已弃用的address字段,通过设置spec.observability.metrics.enableMetrics: true并添加prometheus: kube-prometheus标签来启用由 Operator 管理的 metrics 抓取,以便 kube-prometheus stack 能拾取自动创建的ServiceMonitor,然后应用结果。jq不能直接读取 YAML,因此该示例仅使用kubectl patch --local -p='[]' -o json作为本地 YAML 到 JSON 的解码器,再将资源传递给jq。 -
等待 Collector Pod 就绪:
重建 Instrumentation 资源
对于你已备份的每个 Instrumentation 资源,在 v2 上重新创建,并设置新的 spec.java.image 字段。exporter 端点和其他环境变量的结构与 v1 相同,但 Java 自动注入现在使用 autoinstrumentation-java 2.x 镜像。在此版本中,默认的 OTLP exporter 协议是 http/protobuf,因此此前指向 Collector gRPC 端口 4317 的端点必须改为 Collector HTTP 端口 4318,除非你显式配置 OTEL_EXPORTER_OTLP_PROTOCOL=grpc。如果 Collector 命名空间或 service 名称发生变化,也要相应更新 host 值。
使用上一步创建的相同工作目录。下面的示例将 ./otel-v1-backup/instrumentations.yaml 复制出来,从 JAVA_AUTO_INSTRUMENTATION_IMAGE 变量设置 spec.java.image,将备份中的 OTEL_EXPORTER_OTLP_ENDPOINT 值从端口 4317 更改为 4318,并创建 Instrumentation 资源:
- 将
JAVA_AUTO_INSTRUMENTATION_IMAGE设置为你在准备 Java agent 镜像中准备好的镜像。该命令会将此值写入spec.java.image。如果没有此字段,将不会注入 Java agent,Java 工作负载也不会被自动注入。 autoinstrumentation-java2.x 默认使用http/protobuf导出,因此端点必须使用 Collector 的 OTLP HTTP receiver,通常为端口4318。如果你有意保留 gRPC receiver 端口4317,则需要在 Java 环境配置中添加OTEL_EXPORTER_OTLP_PROTOCOL=grpc。
重新滚动应用 Pod
之前由 v1 Operator 注入的应用 Pod 仍然携带 v1 的 init container、agent 路径和 JAVA_TOOL_OPTIONS。由于这些 Pod 所依赖的 Collector 已被替换,这些 Pod 的遥测导出已不再可用。请重新滚动受影响的工作负载,以便 v2 mutating webhook 注入新的 Java agent 镜像和环境变量。
-
列出启用了 Java 自动注入的 deployments:
-
重启每个已注入的 deployment,并等待滚动完成。根据你需要验证的谨慎程度,从下面两种方式中选择一种。
选项 A——一次处理一个 deployment。 对每个 Deployment 单独执行 rollout。对于大规模集群,建议按关键性分批重启 Deployment,并在每一批之后暂停验证。
选项 B——一次性重启所有已注入的 deployment。 遍历每一个启用了 Java 自动注入的 Deployment。此方式更快,但没有内置的暂停点,因此更适合小规模集群,或在你已通过金丝雀验证更改之后使用。
验证迁移
-
验证集群中仅存在 v2 Operator CSV,且其状态已达到
Succeeded: -
验证 v2 Operator 工作负载正在运行:
-
验证
OpenTelemetryCollector资源健康,并报告为 v2 版本: -
验证
Instrumentation资源已配置spec.java.image: -
验证某个已注入的应用 Pod 使用的是新的 Java agent init container:
输出中必须包含在
Instrumentation.spec.java.image中配置的镜像。 -
验证 Pod spec 中存在 OpenTelemetry 环境变量。此检查直接针对 Kubernetes 对象,不要求应用容器支持
kubectl exec或包含env命令。 -
向一个已注入的应用发送测试请求,并确认生成的 traces 和 metrics 出现在你的 tracing backend(例如 Jaeger UI 或平台 Tracing 控制台)以及 Prometheus 中。
回滚
如果在迁移过程中或迁移后不久发现问题,你可以回滚到 v1 部署。相同的 OLM CRD 所有权限制在回滚方向同样适用:在重新安装 v1 之前,必须先完全卸载 v2 Operator。
删除 v2 资源
等待 v2 Operator 完全移除
期望输出为空。
重新安装 v1 Operator
请按照 安装 OpenTelemetry Operator 中记录的 v1 安装操作步骤执行。
从备份中重建 v1 资源
从 备份 v1 资源中保存的 YAML 文件重建 OpenTelemetryCollector、Instrumentation、ServiceAccount、ClusterRoleBinding 和 ServiceMonitor 资源。
再次滚动应用 Pod
使用 kubectl rollout restart 重启工作负载,以便 v1 mutating webhook 重新注入 v1 Java agent。
故障排查
有关自动注入流程的更深入故障排查,请参见故障排查 instrumentation。