为什么监控指标本身会改变被监控的系统

「海森堡不确定性原理告诉我们：观察会改变被观察的对象。监控也是如此。」

一、当监控成为性能瓶颈

2020年，一家金融科技公司发现：每当他们增加新的监控指标，系统的响应时间就会增加 15%。

排查后发现：监控代码本身消耗了 30% 的 CPU。

他们是在监控性能，还是在制造性能问题？

这就是监控的观察者效应。

二、核心观点：度量即干预

让我说一个反直觉的事实：

当你开始监控一个指标，你就已经在改变系统的行为。

三种机制：

资源消耗：监控代码占用 CPU、内存、网络
行为改变：团队开始针对指标优化，而非真正的用户体验
注意力偏差：被监控的指标得到关注，未被监控的指标被忽视

监控不是中立的观察，是主动的干预。

三、穿越周期：从「全量监控」到「采样监控」

阶段1：监控一切（2010年代）

100% 请求 → 记录日志 → 存储 → 分析

结果： 存储成本爆炸，查询缓慢，系统性能下降。

阶段2：指标聚合（2015年代）

100% 请求 → 聚合指标（平均值、P99）→ 存储

结果： 丢失了细节，但降低了成本。

阶段3：智能采样（2020年代）

1% 请求 → 详细追踪
100% 请求 → 基础指标
异常请求 → 自动详细记录

结果： 平衡了成本和细节。

四、反直觉洞察：越少监控，越多洞察

直觉： 监控越多越好，数据越多越安全。

现实：

过多的监控造成「告警疲劳」
团队被淹没在数据中，无法发现真正的信号
资源被监控消耗，影响业务性能

更好的策略：

监控关键业务指标（用户体验）
采样而非全量
用统计方法发现异常

五、实战：如何监控而不干扰

原则1：业务指标优先

监控用户真正关心的：

成功率
延迟
错误率

而非系统内部指标。

原则2：异步采集

业务代码 → 异步队列 → 监控服务

不要让监控阻塞业务。

原则3：智能采样

正常请求：1% 采样
异常请求：100% 采样

用最小的成本，捕获最关键的信息。

六、写在最后：谦逊的监控

监控不是上帝视角，是有偏差的观察。

最好的监控策略是：

承认监控会改变系统
最小化监控的开销
关注业务指标，而非技术指标

当你盯着系统时，你就在改变它。保持谦逊，保持最小干预。

📚 参考链接与延伸阅读

可观测性实践

Google SRE Book - Monitoring — Google监控分布式系统指南
The Three Pillars of Observability — 可观测性三大支柱
Prometheus Monitoring — Prometheus最佳实践

采样与优化

Adaptive Sampling — Jaeger自适应采样
Distributed Tracing — 分布式追踪标准
StatsD Metrics — 指标收集工具

理论

Heisenberg Uncertainty Principle — 海森堡不确定性原理
Observer Effect — 观察者效应

*Published on 2024-03-07

深度阅读时间：约 5 分钟*

SRE思维实验室系列 #06 —— 可观测性与度量哲学