深入理解 Prometheus 的 rate() 和 irate()：手动计算与详细示例

kevwan 的个人博客 / 63 / 1 / 创建于 1年前 / 更新于 1年前

go-zero 是一个高性能的微服务框架，内置了丰富的指标收集功能。这些指标可以通过 Prometheus 进行采集，并使用 rate() 和 irate() 等函数进行分析，为系统监控和性能优化提供强大支持。本文将详细介绍 go-zero 上报的关键指标及其应用场景，并深入探讨 Prometheus 中 rate() 和 irate() 的区别与使用方法。

go-zero 上报的核心指标

HTTP 服务指标：
- http_server_requests_total：HTTP 请求总数，可用于计算 QPS
- http_server_requests_duration_ms：请求处理时间，用于监控接口响应时间
- http_server_requests_code_total：按状态码分类的请求计数，用于监控错误率
RPC 服务指标：
- rpc_server_requests_total：RPC 调用总数
- rpc_server_requests_duration_ms：RPC 调用耗时
- rpc_client_requests_total：客户端发起的 RPC 调用总数
数据库操作指标：
- db_query_total：数据库查询总数
- db_exec_total：数据库执行总数
- db_transaction_total：事务总数
缓存指标：
- redis_commands_total：Redis 命令总数
- redis_commands_duration_ms：Redis 命令执行时间

什么是 rate() 和 irate()？

Prometheus 是一个强大的监控系统，其查询语言 PromQL 提供了 rate() 和 irate() 等函数，用于分析时间序列数据，尤其是计数器指标（例如 HTTP 请求数或处理查询数这类只递增的值）。这些函数对于计算变化率至关重要，但它们的计算方式有所不同。在这篇文章中，我们讨论一下 rate() 和 irate() 的功能，手动计算它们的具体过程，并通过一个简单的 QPS 示例来说明它们的区别。

rate()：计算指定时间范围内每秒的平均增长率，使用范围内的第一个和最后一个数据点之间的总增量，并将其标准化为范围持续时间。它非常适合平滑的长期趋势分析。
irate()：计算基于范围内最后两个数据点的每秒瞬时增长率。它非常适合捕捉短期峰值或快速变化。

这两个函数都适用于计数器指标，并假设数据单调递增（Prometheus 会自动处理计数器重置）。让我们通过一个具体的示例来拆解它们。

示例场景：HTTP 请求数 (QPS)

假设我们在监控一个 Web 服务，使用计数器指标 http_requests_total 来跟踪处理的 HTTP 请求总数。我们将使用一分钟范围（[1m]），采集间隔为 15 秒，QPS 保持在较小的值。

数据

评估时间：2025年3月23日 12:00:00 UTC
时间范围：[1m]（11:59:00 至 12:00:00）
采集间隔：15 秒
指标值 (http_requests_total)：
- 11:59:00：100 请求
- 11:59:15：110 请求
- 11:59:30：120 请求
- 11:59:45：130 请求

这是一个较轻负载的服务，QPS 较低，但随时间缓慢增长。让我们手动计算 rate(http_requests_total[1m]) 和 irate(http_requests_total[1m])。

手动计算：`irate(http_requests_total[1m])`

irate() 关注范围内最后两个数据点之间的瞬时增长率。

逐步计算

确定最后两个数据点：
- 倒数第二个：11:59:30，值 = 120
- 最后一个：11:59:45，值 = 130
提取值和时间戳：
- t1 = 11:59:30（Unix 时间戳：1711279170），v1 = 120
- t2 = 11:59:45（Unix 时间戳：1711279185），v2 = 130
计算差值：
- 值差：v2 - v1 = 130 - 120 = 10
- 时间差：t2 - t1 = 15 秒

计算每秒速率：

公式：
```
irate = (v2 - v1) / (t2 - t1)
```
计算：
```
irate = 10 / 15 ≈ 0.6667 (QPS)
```

结果

irate(http_requests_total[1m]) = 0.6667 QPS
这表明在 11:59:30 至 11:59:45 期间，服务以每秒 0.6667 次请求的速率处理请求，反映了最新的增长趋势。

手动计算：`rate(http_requests_total[1m])`

rate() 计算整个范围内的平均增长率，并将其标准化为一分钟（60 秒）。

逐步计算

确定所有数据点：
- 第一个：11:59:00，值 = 100
- 11:59:15，值 = 110
- 11:59:30，值 = 120
- 最后一个：11:59:45，值 = 130
提取首尾值和时间戳：
- t0 = 11:59:00（Unix 时间戳：1711279140），v0 = 100
- t3 = 11:59:45（Unix 时间戳：1711279185），v3 = 130
计算总增量：
- 值差：v3 - v0 = 130 - 100 = 30
- 时间差：t3 - t0 = 45 秒
计算每秒平均速率：
- 公式：
```
rate = 总增量 / 范围持续时间（秒）
```
- 范围持续时间为 [1m] = 60 秒（Prometheus 按此标准化）：
  - 总增量 = 30 请求
  - 速率：
```
rate = 30 / 60 = 0.5 (QPS)
```
- （如果按实际 45 秒计算：30 / 45 ≈ 0.6667，但 [1m] 使用 60 秒。）

结果

rate(http_requests_total[1m]) = 0.5 QPS
这将一分钟内的增量平均化，显示出稳定的每秒 0.5 次请求。

关键区别

irate()：
- 仅使用最后两个点（120 至 130，跨 15 秒）。
- 结果：0.6667 QPS——较高，反映了最近的增长。
rate()：
- 使用整个范围（100 至 130，标准化为 60 秒）。
- 结果：0.5 QPS——较低，平滑了趋势。

这个示例中，QPS 较小（低于 1），适合轻负载场景，清晰展示了两者的计算差异。

可视化

以下是用 Python 的 matplotlib 库生成的图表：

import matplotlib.pyplot as plt

# Data from the example
times = [0, 15, 30, 45]  # Seconds relative to 11:59:00 (up to 11:59:45)
values = [100, 110, 120, 130]  # http_requests_total values

# Extended time for rate extrapolation to 60s
rate_times = [0, 45, 60]  # Start, last point, and extrapolated to 1m
rate_values = [100, 130, 140]  # Extrapolated value at 60s (0.5 * 60 + 100)

# irate calculation uses last two points (30s to 45s)
irate_times = [30, 45]
irate_values = [120, 130]

# Create the plot
fig, ax1 = plt.subplots(figsize=(10, 6))

# Plot http_requests_total (left y-axis)
ax1.step(times, values, where='post', color='black', label='http_requests_total', linewidth=2)
ax1.scatter(times, values, color='black')  # Add points
ax1.set_xlabel('Time (seconds)')
ax1.set_ylabel('http_requests_total (requests)', color='black')
ax1.tick_params(axis='y', labelcolor='black')
ax1.set_ylim(90, 150)
ax1.grid(True, linestyle='--', alpha=0.7)

# Create a second y-axis for rates
ax2 = ax1.twinx()
ax2.set_ylabel('Rate (req/s)', color='blue')
ax2.tick_params(axis='y', labelcolor='blue')
ax2.set_ylim(0, 1)

# Plot irate (red line)
ax2.plot(irate_times, [0.6667, 0.6667], color='red', label='irate = 0.6667 req/s', linewidth=2)
ax2.text(45, 0.68, 'irate = 0.6667 req/s', color='red', ha='right', va='bottom')

# Plot rate (blue line with dashed extrapolation)
ax2.plot(rate_times[:2], [0.5, 0.5], color='blue', label='rate = 0.5 req/s', linewidth=2)
ax2.plot(rate_times[1:], [0.5, 0.5], color='blue', linestyle='--', linewidth=2)
ax2.text(60, 0.52, 'rate = 0.5 req/s', color='blue', ha='right', va='bottom')

# Title and legend
plt.title('irate() vs rate() for http_requests_total[1m]')
fig.legend(loc='lower center', bbox_to_anchor=(0.5, -0.1), ncol=3)

# Add [1m] range annotation
ax1.annotate('[1m] range', xy=(30, 90), xytext=(30, 85),
             ha='center', arrowprops=dict(arrowstyle='<->', connectionstyle='arc3'))
ax1.plot([0, 60], [90, 90], 'k-', lw=1)

# Adjust layout and show plot
plt.tight_layout()
plt.show()

图表说明：

X 轴：时间（0 秒至 60 秒）
左 Y 轴：http_requests_total（90 至 150）
右 Y 轴：速率（0 至 1 QPS）
黑色阶梯线：指标值（100、110、120、130）
红色线：irate = 0.6667 QPS（从 30 秒至 45 秒）
蓝色线：rate = 0.5 QPS（从 0 秒至 45 秒，虚线延伸至 60 秒）

黑色线显示计数器增长，红色线显示 irate() 的陡峭上升，蓝色线显示 rate() 的平均趋势。

使用 rate() 和 irate() 分析 go-zero 指标的优势

1. 使用 rate() 监控稳定业务趋势

rate(http_server_requests_total{service="user-api"}[5m])

这个查询可以显示用户 API 服务在 5 分钟内的平均 QPS，适合于：

查看服务的整体负载趋势
设置基于平均负载的自动扩缩容策略
比较不同时间段的业务量变化
监控系统容量规划和资源使用效率

2. 使用 irate() in 检测突发流量和系统异常

irate(http_server_requests_total{service="payment-api", code=~"5.."}[1m])

这个查询显示支付 API 服务最近的 5xx 错误率，适合于：

快速检测突发错误峰值
系统故障即时告警
实时监控关键业务指标的突变
发现瞬时性能瓶颈

3. 组合使用优化监控策略

# 同时监控短期和长期趋势
irate(http_server_requests_duration_ms_sum{path="/api/v1/order"}[1m]) / 
irate(http_server_requests_duration_ms_count{path="/api/v1/order"}[1m])

# 与长期平均值对比
rate(http_server_requests_duration_ms_sum{path="/api/v1/order"}[5m]) / 
rate(http_server_requests_duration_ms_count{path="/api/v1/order"}[5m])

这种组合查询可以同时显示订单 API 的短期和长期延迟趋势，有助于：

识别性能异常但尚未触发警报的情况
区分临时波动和持续性问题
更全面地了解系统性能状况

go-zero 指标监控的实际应用价值

性能瓶颈识别：通过监控各组件的请求率和延迟，可以快速定位系统中的瓶颈。例如，使用 rate(db_query_duration_ms_sum[5m]) / rate(db_query_duration_ms_count[5m]) 可以发现数据库查询是否成为系统瓶颈。
服务质量保障：设置基于关键指标的告警阈值，例如当 irate(http_server_requests_duration_ms{quantile="0.99"}[1m]) 超过预定值时触发告警，确保服务响应时间符合 SLA。
容量规划和扩缩容：根据 rate(http_server_requests_total[15m]) 的历史数据和趋势，预测未来业务增长并提前进行容量规划。
业务洞察：将技术指标与业务指标相关联，例如将 API 调用率与用户活跃度或转化率关联，帮助理解技术变化对业务的影响。
异常检测和故障排除：使用 irate() 快速发现异常模式，例如某个服务的错误率突然增加或响应时间急剧上升，然后深入分析日志或跟踪信息进行故障排除。

何时使用哪个？

rate()：适合稳定的长期指标（例如分钟级平均 QPS）或基于持续趋势的警报。在 go-zero 系统中，适合用于容量规划、性能基准测试和长期趋势分析。
irate()：适合检测突然变化（例如 QPS 峰值）或短期分析。在 go-zero 中，适合用于实时监控、快速告警和故障检测。

两者都很强大，选择取决于你的监控目标。在实际应用中，可以建立两层监控系统：使用 irate() 进行实时监控和告警，使用 rate() 进行长期趋势分析和容量规划。

总结

Prometheus 的 rate() 和 irate() 函数为分析计数器指标提供了强大的工具，特别是在处理 go-zero 等现代微服务框架上报的大量指标时。理解这些函数的工作原理和使用场景，将帮助开发团队：

建立更有效的监控系统
快速发现并解决性能问题
优化系统资源使用
提供更可靠的服务质量

go-zero 框架通过内置的指标采集机制，结合 Prometheus 强大的查询能力，为微服务架构提供了全面的可观测性支持。通过合理使用 rate() 和 irate() 函数，开发团队可以从不同时间维度全面了解系统状态，确保服务稳定运行并持续优化性能。

go 微服务 go-zero

本作品采用《CC 协议》，转载必须注明作者和本文链接

github.com/zeromicro/go-zero

深入理解 Prometheus 的 rate() 和 irate()：手动计算与详细示例

go-zero 上报的核心指标

什么是 rate() 和 irate()？

示例场景：HTTP 请求数 (QPS)

数据

手动计算：`irate(http_requests_total[1m])`

逐步计算

结果

手动计算：`rate(http_requests_total[1m])`

逐步计算

结果

关键区别

可视化

使用 rate() 和 irate() 分析 go-zero 指标的优势

1. 使用 rate() 监控稳定业务趋势

2. 使用 irate() in 检测突发流量和系统异常

3. 组合使用优化监控策略

go-zero 指标监控的实际应用价值

何时使用哪个？

总结

推荐文章：

社区赞助商

关于 LearnKu

资源推荐

服务提供商

其他信息

深入理解 Prometheus 的 rate() 和 irate()：手动计算与详细示例

go-zero 上报的核心指标

什么是 rate() 和 irate()？

示例场景：HTTP 请求数 (QPS)

数据

手动计算：irate(http_requests_total[1m])

逐步计算

结果

手动计算：rate(http_requests_total[1m])

逐步计算

结果

关键区别

可视化

使用 rate() 和 irate() 分析 go-zero 指标的优势

1. 使用 rate() 监控稳定业务趋势

2. 使用 irate() in 检测突发流量和系统异常

3. 组合使用优化监控策略

go-zero 指标监控的实际应用价值

何时使用哪个？

总结

推荐文章：

社区赞助商

关于 LearnKu

资源推荐

服务提供商

其他信息

请登录

手动计算：`irate(http_requests_total[1m])`

手动计算：`rate(http_requests_total[1m])`