AI观测站｜传统可观测性，为什么越来越看不懂 AI？

从“看系统状态”到“理解和控制 AI 行为”，可观测性的观察对象正在改变。

过去十多年，我基本都在 APM、可观测性、生产系统这些事情里打转。

从 JavaAgent、调用链、日志、指标、告警，到后来的全链路追踪、根因分析、AIOps，我经历过一轮又一轮“可观测性升级”。

但最近我越来越强烈地意识到一件事：

传统可观测性，开始越来越难理解 AI 系统。

不是因为监控没用了。

也不是因为 Trace、日志、指标突然不重要了。

而是因为：

过去我们观测的是：系统状态。

但 AI 进入生产以后，企业开始必须观测：AI 行为。

这两件事不是一回事。

接个大模型，不等于 AI 可观测性

现在很多可观测性产品都开始接 AI。

自然语言查指标。

自动总结告警。

帮工程师解释日志。

问一句“最近哪个服务有问题”，系统给你返回一段分析。

这些能力有没有价值？当然有。

它能降低查询门槛，也能减少很多一线排障成本。

但我想说的是：

这还不是 AI 时代真正的可观测性。

它更像是：

旧可观测性，加了一个 AI 交互入口。

原来人查指标，现在 AI 帮人查。

原来人看日志，现在 AI 帮人总结。

原来人看 Trace，现在 AI 帮人解释一遍。

这一步当然有用。

但它没有改变根本问题。

因为它观察的对象，仍然是传统系统：

CPU 有没有飙高；
接口有没有变慢；
错误率有没有上升；
调用链有没有断；
哪个服务异常；
哪次发布以后指标变差。

这些问题依然重要。

但 AI 进入生产以后，企业真正开始关心的是：

AI 为什么这样做？

这个问题，传统可观测性其实很难回答。

因为这背后已经不是“多采几条日志”的问题。

而是传统可观测性的底层假设，开始被 AI Runtime 改写了。

今天很多所谓 AI 可观测性，本质上还是：

旧监控平台，加一个 LLM 助手。

它解决的是：人怎么更快看数据。

但 AI Runtime 真正的问题是：

企业怎么理解和控制 AI 自己的行为。

过去十年，我们看的是“系统发生了什么”

传统 APM 和可观测性解决的问题，其实很清楚。

系统慢了，慢在哪里。服务挂了，挂在哪里。接口报错，错误从哪来。一次发布之后，哪个指标先变坏。

这些问题背后的逻辑是：

软件系统主要由代码、配置、调用关系和运行环境决定。

所以我们可以通过指标、日志、Trace、事件、拓扑，把系统状态拼出来。

这也是过去十多年可观测性行业最核心的价值。

它帮助企业回答：

发生了什么？

再进一步：

为什么发生？

但这里有一个很重要的隐含前提：

软件系统，大体是确定性的。

代码写好了，逻辑基本就固定了。

所以传统可观测性的核心，

是：还原系统状态。

但 AI Runtime 不一样。

AI 的行为路径，不再由代码提前写死。

它会受到 Prompt、上下文、Memory、RAG、权限和工具反馈共同影响。

同样的问题，今天和昨天可能会形成不同决策。

这意味着：

企业第一次开始面对一种新的生产系统：行为不稳定的生产系统。

这才是传统可观测性越来越看不懂 AI 的根本原因。

它擅长解释：确定性系统的状态异常。

但 AI Runtime 的核心问题是：

概率性行为系统的行动原因。

系统健康，不等于行为正确

AI 进入生产以后，企业不只是要知道：接口有没有报错；Trace 有没有断；延迟有没有升高。

企业还开始关心：

AI 为什么选择这个工具？
为什么引用这份知识？
为什么跳过了人工确认？
为什么认为这个动作可以自动执行？
为什么昨天没这么做，今天突然这么做了？

这些问题，已经不是传统的“系统状态问题”。

它们是：AI 行为问题。

过去运维看的是：系统有没有正常运行。

未来企业还必须看：AI 有没有正确行动。

系统健康，不等于行为正确。

过去的故障，更多是系统异常。

未来的故障，很可能是：

AI 在“系统看起来正常”的情况下做错了事。

一个工具返回 200，不代表它应该被调用。

一次自动修复执行成功，也不代表这个动作应该被允许。

真正危险的，不是 AI 说错，而是 AI 做错

很多人讨论 AI 风险，还停留在“幻觉”。

也就是：AI 胡说、答错、编造事实。

这当然是问题。

但在企业生产系统里，

更大的风险往往不是“说错”。

而是：做错。

因为 AI 正在获得执行权。

它可以调工具。可以写代码。可以执行 SQL。可以触发审批。可以改配置。可以重启服务。甚至可以建议和执行修复动作。

这时候问题的性质就变了。

以前 AI 答错了，最多是内容错误。

现在 AI 做错了，可能就是生产事故。

比如一个运维 Agent 自动执行修复动作。

系统可能完全健康。接口成功。脚本执行成功。服务指标恢复。

但问题是：

这个动作本来就不该被执行。

这才是 AI Runtime 最危险的地方。

如果企业回答不了：

AI 为什么这样判断？
它基于什么证据？
这个动作为什么被允许？
出了问题如何回滚？

那么即使 Dashboard 再漂亮，也只是：看到了动作发生。

并没有真正理解：动作为什么发生。

更没有能力控制它下一次会不会再发生。

这不是同一代问题。

帮助人类更快看数据，是人类运维时代的辅助工具。

理解 AI 自己的决策与行动，才是 AI 获得执行权之后的运行控制问题。

所以，AI 可观测性要看三条链

图：AI 可观测性不能只看调用链，还要看行为链、证据链和责任链。

我现在越来越觉得：AI 时代的可观测性，不能只看调用链。

调用链回答的是：

请求经过了哪些服务？

但 AI 生产化真正需要回答的是：

AI 为什么形成这个行为？

这就需要看三条链。

行为链，回答：AI 到底做了什么。

证据链，回答：AI 凭什么这么做。

责任链，回答：如果做错了，谁负责。

在金融、运营商、政企这些场景里，责任链尤其关键。

因为很多企业不是不想用 AI。

而是不敢把 AI 放进核心系统。

一旦出事，必须说得清楚。

说不清，就不敢授权。

判断 AI 可观测性，别只看有没有 AI 助手

以后企业看一个 AI 可观测性产品，我建议不要只问：

有没有大模型助手？

能不能自然语言查日志？

能不能自动生成告警摘要？

这些都只是第一层。

更重要的是四个问题。

第一，它能不能解释 AI 的行为路径？

第二，它能不能做错误归因？

第三，它能不能支持执行前验证？

第四，它能不能把事故变成下一次控制能力？

如果这些事情做不到，只是让 AI 帮你读日志、查指标、总结告警。

那它仍然停留在：

AI 化的可观测性。

而不是：

AI Runtime Control。

可观测性行业真正的变化：

从看见，到调查，到控制

我判断，中国可观测性行业正在进入一次真正的代际切换。

过去的价值中心是：能不能看见系统。

后来逐渐变成：能不能解释问题。

AI 进入生产以后，还会继续往前走：能不能控制行为。

未来几年，单纯“看系统”的可观测性价值会越来越被压缩。

因为采集正在标准化。监控正在平台化。

真正新的价值，会转移到：

AI 行为的解释、验证和运行控制。

过去 Observability 的核心是：人看数据。

未来企业真正需要的是：理解 AI 行为。

这也是为什么我认为：未来可观测性的价值中心，会从 Dashboard、Query、Trace，迁移到行为归因和运行控制。

企业根本不缺 Agent Demo。

真正缺的是：

谁敢让 Agent 进入生产。

而“谁敢让它做”，本质上就是可观测性行业的新问题。

因果 AI 要讲的，不是泛 AI 治理

我越来越觉得：

AI 获得执行权以后，企业真正缺的，不是更多 Agent。

而是一套新的运行控制体系。

我把它叫做：

AI Runtime Control。

它其实就是几个很朴素的问题：

AI 做了什么？
为什么这么做？
依据是什么？
动作有没有被验证？
出了问题能不能回滚？
下一次能不能避免？

如果用一个简单方法概括，就是：

Observe · Infer · Decide · Verify

先看见。再解释。再决定。最后验证。

没有验证的自动化，很容易变成事故放大器。

这一点，后面我会单独写。

最后

AI 进入生产以后，

企业最大的问题已经不是：AI 会不会做。

而是：

谁敢让它做。

这也是为什么传统可观测性会越来越看不懂 AI。

因为它擅长看系统状态。

但 AI 时代，企业还必须看运行时行为。

过去十年，可观测性治理的是：

代码运行系统。

未来十年，企业真正要治理的是：

AI 行为运行系统。

这不是一次简单的产品升级。

它更像一次新的生产系统革命。

#AIRuntimeControl #AI可观测性 #行为链 #生产系统 #AgentOps

推荐阅读

新能源之势锐不可当！新能源汽车App用户体验测试报告
为了让用户以及厂商更加了解其App在不同操作系统下（Android、iOS）的用户体验情况以及性能情况，基调听云通过使用App拨测对国内新能源头部企业（蔚来、小鹏、理想）及国产豪强（比亚迪、荣威、名爵）六大汽车厂商官方App进行了为期一周的测试

2022-07-27

继续阅读
应用性能管理apm
应用性能管理apm是一种综合性的解决方案，它可以提供多种服务来帮助企业优化应用程序的性能，在出现性能问题时及时接收警报，并生成定期性能分析报告。通过使用性能管理系统，企业可以确保并提高关键业务APP应用的可用性、可靠性和性能。应用性能管理apm能为企业提供哪些功能服务？

2023-06-14

继续阅读
产品配置管理系统
随着科技的不断发展，企业管理也在不断地追求更高效、更智能的方式。在制造业领域，产品配置管理系统已经成为了一种非常重要的工具，它可以帮助企业在产品设计、生产、销售等各个环节中实现更加精细化的管理。本文将详细介绍产品配置管理系统的应用领域，以及它在各个行业中的具体应用实例。

2023-12-13

继续阅读

系统监控运维是什么
系统监控运维是什么?恐怕是现代很多企业比较关心的问题了，因为现代化的发展导致企业的数字化也越来越普及，但数字化的背后需要一个比较完善的信息系统，这种时候就需要及时对应用的系统进行监控，只有这样才能保障系统的正常运行。也正因为如此，对系统进行监控运维也成为企业发展中的一个重要环节。

2023-09-21

继续阅读
AI观测站｜AI 开始行动以后，权限管理已经不够了
2026-06-22

继续阅读

AI观测站｜传统可观测性，为什么越来越看不懂 AI？

AI观测站｜传统可观测性，为什么越来越看不懂 AI？

能力

关于

工具