使用 Sidecar Logs 时 TaskRun 结果缺失
问题描述
当启用 results-from: sidecar-logs 时,如果 controller 无法读取 Pod 日志,PipelineRun 或 TaskRun 可能无法解析 results。这通常表现为在 result 收集期间缺少 Task results 或 Pipeline results。
错误表现
-
PipelineRun 显示 result 收集失败:
-
TaskRun 显示缺失的 Task result 引用:
-
Pod 仍然存在,但无法检索 sidecar 日志:
根因分析
为了绕过 4 KB termination message 限制,Tekton 可以使用 results-from: sidecar-logs 从 sidecar 日志中读取 results(自 Tekton v0.61.0 起这是一个 beta 功能)。该机制依赖 Kubernetes Pod logs API 来获取 sidecar 输出。如果 log API 无法返回数据,Tekton 就无法解析 results,从而导致缺少 TaskResult 或 PipelineResult 引用。
常见触发原因包括:
- Pod 仍然存在,但 Pod 日志不可用。
- 在使用基于文件日志的节点上,
/var/log/containers或/var/log/pods下的条目被移除,或者轮转过于激进。 - kubelet 或容器运行时临时不一致或重启。
- Pod 或 container 的 garbage collection 在 results 收集完成前移除了日志。
排查
- 验证
results-from: sidecar-logs是否已在 TektonConfig 和 feature-flags ConfigMap 中启用。 - 检查 PipelineRun 和 TaskRun 事件,确认是否存在 result 收集失败。
- 直接检查 sidecar 日志。如果以下命令返回类似下面的错误,说明日志已不再可访问:
- 检查 Tekton controller 是否已配置 Pod log RBAC。缺少 RBAC 权限也会导致日志检索失败:
- 在节点上验证 Pod 日志文件和符号链接是否仍然存在,并确认 kubelet/containerd 运行正常。
解决方案
推荐的方法是更长时间保留已终止的 Pod,以便在收集 results 时 sidecar 日志仍然可访问。
- 在 control plane 上增大
terminated-pod-gc-threshold(例如设置为1000),并观察行为。- 这样做的原因:在繁忙环境中,许多 TaskRun Pod 可能会同时完成。如果已终止 Pod 的数量超过阈值,pod GC 会立即将其移除。一旦 Pod 被删除,sidecar 的 log API 就不可用,results 也就无法收集。提高阈值可以延后清理窗口,为 Tekton 读取 sidecar 日志并提取 results 提供更多时间。
- 修改方法:有关
--terminated-pod-gc-threshold,请参阅 kube-controller-manager flags。 - 设定方法:估算在短时间窗口内(例如 1 分钟)有多少 Pod 会进入
Succeeded或Failed,然后预留余量。可使用平台的 workload 指标或 pipeline 完成数来近似峰值每分钟完成数,并将阈值设置得高于该峰值。 - 注意:在用户无法访问 control plane 的托管 Kubernetes 服务(例如 EKS、AKS 或 GKE)中,此参数可能无法配置。
- 确保节点磁盘空间充足。
- 这样做的原因:当节点遇到磁盘压力时,kubelet 和 containerd 可能会激进地清理日志和 Pod 目录。这可能会在 controller 读取之前删除或截断 sidecar 日志。
- 修改方法:请参考 KubeletConfiguration 中的 kubelet 驱逐配置,并调整磁盘压力阈值以符合容量规划。
- 运维建议:监控平台中的构建节点存储使用情况,并在磁盘压力触发驱逐或日志清理之前安排主动清理。
- 确认日志保留设置(例如 kubelet log rotation)与预期的 pipeline 持续时间一致。
- 这样做的原因:如果日志轮转过快或保留的文件过少,即使 Pod 仍然存在,sidecar 输出也可能在 results 解析之前消失。
- 修改方法:检查 KubeletConfiguration 中的
containerLogMaxSize和containerLogMaxFiles。
- 考虑切换回默认的
termination-message方法。- 这样做的原因:
termination-message方式不依赖 Pod 日志,因此可以完全避免上述日志可用性问题。 - 权衡:该方法对 results 的大小限制为 4 KB。如果 Task results 超过此限制,pipeline 将失败。当需要更大的 results 时,这会对用户体验产生负面影响。
- 修改方法:在 TektonConfig 中将
results-from: termination-message。请注意,如果 Tekton 通过 TektonConfig 部署,直接修改 feature-flags ConfigMap 不会生效,因为 operator 会进行 reconcile 并覆盖 ConfigMap 的更改。
- 这样做的原因:
预防措施
- 监控集群中 Pod logs API 的可用性。
- 保持 Task results 的大小适中,并尽早收集 results。
- 将 beta 功能视为在不稳定日志环境中可能比 GA 功能更不稳定,并定期审查其使用情况。