保留策略配置

Tekton Results 保留策略为数据库记录和 S3 兼容存储系统中的归档日志提供自动清理功能。Retention Agent 会根据可配置的基于时间的策略,定期删除过期的结果及其关联的日志负载。

配置

保留策略通过 TektonConfig 自定义资源中的 spec.result.options 字段配置 ConfigMap 覆盖:

apiVersion: operator.tekton.dev/v1alpha1
kind: TektonConfig
metadata:
  name: config
spec:
  result:
    logs_api: true
    logs_type: S3
    secret_name: my-s3-secret
    is_external_db: true
    db_host: your-postgres-host.example.com
    db_port: 5432
    db_name: tekton_results
    db_sslmode: require
    db_secret_name: tekton-results-postgres
    options:
      configMaps:
        tekton-results-config-results-retention-policy:
          data:
            defaultRetention: "30"  # 保留结果的天数(30 天)
            runAt: "0 2 * * *"      # Cron 计划:每天凌晨 2 点

配置参数

字段描述示例值必填
defaultRetention结果保留天数,超过该天数后自动删除"30"
runAtRetention Agent 运行的 Cron 计划表达式"0 2 * * *"
  • defaultRetention:指定结果在自动删除前的保留天数。超过该期限后,数据库记录和 S3 存储中的关联日志负载都会被清理。

  • runAt:定义 Retention Agent 运行时间的 Cron 表达式。

    • "0 2 * * *" - 每天凌晨 2 点
    • "0 2 * * 0" - 每周日凌晨 2 点
    • "0 2 1 * *" - 每月 1 日凌晨 2 点

应用配置

应用 TektonConfig 配置:

kubectl apply -f tekton-config-retention-config.yaml

示例输出:

tektonconfig.operator.tekton.dev/config configured

等待 Retention Agent 重启:

kubectl rollout status -n tekton-pipelines deployment/tekton-results-retention-policy-agent

示例输出:

deployment "tekton-results-retention-policy-agent" successfully rolled out

验证配置是否生效:

kubectl get pods -n tekton-pipelines -l app.kubernetes.io/name=tekton-results-retention-policy-agent

示例输出:

NAME                                                   READY   STATUS    RESTARTS   AGE
tekton-results-retention-policy-agent-5c9g2            1/1     Running   0          5m

重要说明

重要:统一清理功能(同时删除数据库记录和 S3 日志负载)是一个 增强功能(基于补丁),当前社区版 Tekton Results 尚未提供。社区版本仅删除数据库记录,但不会清理 S3 存储中的日志负载,可能导致存储无限增长。

查看 TektonConfig 保留策略配置:

kubectl get tektonconfig config -o yaml

示例输出(简略):

apiVersion: operator.tekton.dev/v1alpha1
kind: TektonConfig
metadata:
  name: config
spec:
  result:
    logs_api: true
    logs_type: S3
    secret_name: my-s3-secret
    is_external_db: true
    db_host: your-postgres-host.example.com
    options:
      configMaps:
        tekton-results-config-results-retention-policy:
          data:
            defaultRetention: "30"
            runAt: "0 2 * * *"

查看 Retention Agent 日志:

kubectl logs -n tekton-pipelines deployment/tekton-results-retention-policy-agent

示例输出:

{"level":"info","ts":"2023-05-15T10:30:45.123Z","caller":"retention/main.go:89","msg":"Starting Tekton Results retention policy agent"}
{"level":"info","ts":"2023-05-15T10:30:45.124Z","caller":"retention/agent.go:45","msg":"Retention policy configured: 30 days, schedule: 0 2 * * *"}
{"level":"info","ts":"2023-05-15T10:30:45.125Z","caller":"retention/scheduler.go:123","msg":"Next execution scheduled for: 2023-05-16T02:00:00Z"}

验证

要快速验证保留策略是否正常工作,请按以下步骤操作:

  1. 创建测试结果/日志:生成一些 Tekton PipelineRuns 或 TaskRuns,产生结果和日志存储到 Tekton Results 数据库。

    # 创建示例 PipelineRun 以生成测试数据
    kubectl apply -f sample-pipelinerun.yaml
  2. 验证初始状态:检查数据库和 S3 存储(如适用)中是否存在结果和日志。

    # 查看 Tekton Results
    tkn results list
    
    # 或者直接从数据库查询(如果可访问)
    kubectl exec -it -n tekton-pipelines deployment/tekton-results-read-api -- grpcurl -plaintext -d '{}' localhost:8080 api.v1alpha2.Results.ListResults
  3. 修改保留策略用于测试:临时设置非常短的保留期和特定的 cron 计划(例如,当前时间 + 10 分钟执行一次)。

    options:
      configMaps:
        tekton-results-config-results-retention-policy:
          data:
            defaultRetention: "0"  # 保留 0 天(立即清理)
            # 在特定时间执行一次(当前时间 + 10 分钟)
            # 例如:当前时间为 14:30,设置为 "40 14 * * *" 表示 14:40 执行
            # 根据需要调整分钟值(当前分钟 + 10,必要时调整小时/日期)
            runAt: "40 14 * * *"  # 示例:14:40 执行(约为当前时间 + 10 分钟)
  4. 应用修改后的配置:应用临时测试配置并等待 Retention Agent 重启。

    kubectl apply -f tekton-config-test-config.yaml
    kubectl rollout restart -n tekton-pipelines deployment/tekton-results-retention-policy-agent
  5. 监控 Retention Agent 日志:观察 Retention Agent 日志,确认清理操作是否执行。

    kubectl logs -n tekton-pipelines deployment/tekton-results-retention-policy-agent -f
  6. 验证清理结果:保留策略执行后,确认旧的结果和日志已被删除。

    # 检查结果是否已清理
    tkn results list
    
    # 同时检查 S3 存储,确认日志文件已被清理
    # 使用您的 S3 客户端列出桶内对象
    aws s3 ls s3://your-bucket-name/path/to/tekton-logs/ --recursive
  7. 恢复生产设置:验证完成后,将保留策略恢复为生产环境的预期值。

警告:设置非常短的保留期会导致结果立即被删除,请务必在测试环境中进行验证。