Ops 监控指标

Ops 暴露 Prometheus 指标用于监控 controller 和 server 组件。

指标端点

  • Controller: :9090/metrics
  • Server: :9090/metrics

Controller 指标

资源信息指标

这些指标在每次 reconcile 时暴露资源信息。

指标 标签 描述
ops_controller_task_info namespace, name, desc, host, runtime_image Task 资源信息
ops_controller_pipeline_info namespace, name, desc Pipeline 资源信息
ops_controller_host_info namespace, name, address, hostname, distribution, arch, cpu_total, mem_total, disk_total, accelerator_vendor, accelerator_model, accelerator_count, heart_status Host 资源信息
ops_controller_cluster_info namespace, name, server, version, node, pod, running_pod, heart_status Cluster 资源信息
ops_controller_eventhooks_info namespace, name, type, subject, url EventHooks 资源信息

TaskRun 指标

指标 标签 描述
ops_controller_taskrun_info namespace, name, taskref, crontab, status TaskRun 资源信息和状态
ops_controller_taskrun_start_time namespace, name, taskref TaskRun 开始时间(unix 时间戳)
ops_controller_taskrun_end_time namespace, name, taskref TaskRun 结束时间(unix 时间戳)
ops_controller_taskrun_duration_seconds namespace, name, taskref, status TaskRun 运行时长(秒)

PipelineRun 指标

指标 标签 描述
ops_controller_pipelinerun_info namespace, name, pipelineref, crontab, status PipelineRun 资源信息和状态
ops_controller_pipelinerun_start_time namespace, name, pipelineref PipelineRun 开始时间(unix 时间戳)
ops_controller_pipelinerun_end_time namespace, name, pipelineref PipelineRun 结束时间(unix 时间戳)
ops_controller_pipelinerun_duration_seconds namespace, name, pipelineref, status PipelineRun 运行时长(秒)

运行次数指标

指标 标签 描述
ops_controller_taskref_run_total namespace, taskref, status Task 运行总次数
ops_controller_pipelineref_run_total namespace, pipelineref, status Pipeline 运行总次数

EventHooks 指标

指标 标签 描述
ops_controller_eventhooks_trigger_total namespace, eventhook_name, keyword, event_id, status EventHooks 触发次数,包含匹配的关键字和事件 ID

Reconcile 指标

指标 标签 描述
ops_controller_reconcile_total controller, namespace, result reconcile 操作总次数
ops_controller_reconcile_errors_total controller, namespace, error_type reconcile 错误总次数

Controller 资源指标

指标 标签 描述
ops_controller_resource_goroutines pod Controller goroutine 数量
ops_controller_resource_cpu_usage_seconds_total pod Controller CPU 使用量(秒,累计值,从 cgroup 读取)
ops_controller_resource_memory_usage_bytes pod Controller 内存使用量(字节,从 cgroup 读取)
ops_controller_uptime_seconds pod Controller 运行时间(秒)
ops_controller_info pod, version, build_date Controller 信息

Server 指标

资源指标

指标 标签 描述
ops_server_resource_goroutines pod Server goroutine 数量
ops_server_resource_cpu_usage_seconds_total pod Server CPU 使用量(秒,累计值,从 cgroup 读取)
ops_server_resource_memory_usage_bytes pod Server 内存使用量(字节,从 cgroup 读取)

吞吐量指标

指标 标签 描述
ops_server_throughput_http_requests_total method, path, status_code HTTP 请求总数
ops_server_throughput_api_requests_total endpoint, namespace, status API 请求总数
ops_server_throughput_api_errors_total endpoint, namespace, error_type API 错误总数

Server 信息指标

指标 标签 描述
ops_server_info pod, version, build_date Server 信息
ops_server_uptime_seconds pod Server 运行时间(秒)

查询示例

获取所有运行中的 TaskRun

ops_controller_taskrun_info{status="Running"}

按状态统计 Task 运行次数

sum by (taskref, status) (ops_controller_taskref_run_total)

获取 Host 列表及状态

ops_controller_host_info

按关键字统计 EventHooks 触发次数

sum by (eventhook_name, keyword) (ops_controller_eventhooks_trigger_total)

获取 TaskRun 运行时长

ops_controller_taskrun_duration_seconds

获取 Controller CPU 使用率

rate(ops_controller_resource_cpu_usage_seconds_total{pod="xxx"}[5m])

获取 Controller 内存使用量

ops_controller_resource_memory_usage_bytes{pod="xxx"}

获取 Server CPU 使用率

rate(ops_server_resource_cpu_usage_seconds_total{pod="xxx"}[5m])

获取 Server 内存使用量

ops_server_resource_memory_usage_bytes{pod="xxx"}

results matching ""

    No results matching ""

    results matching ""

      No results matching ""