上一篇我讲了一个判断:
传统可观测性,为什么越来越看不懂 AI?
这篇继续往下讲一层。
上一篇讲的是:
观察对象变了。
从系统状态,变成 AI 行为。
这篇讲的是:
传统运维的问题定位逻辑,也开始变了。

传统运维为什么也开始越来越难解释 AI 问题?
不是因为日志少了。
也不是因为 Trace 不够长。
而是因为 AI 进入生产以后,很多问题已经不再只是“系统故障”,也不一定能沿着版本、配置、依赖这条老路径定位。
很多时候:
系统是正常的,
但 AI 已经做错了事。
这才是传统运维真正开始吃力的地方。
过去我们看系统,
主要看它有没有正常运行。
但 AI 进入生产以后,
企业还必须判断:
它有没有正确行动。
这是两个完全不同的问题。
这个变化在 2026 年会越来越明显。
过去很多企业里的 AI 还是助手,主要写总结、查知识、辅助分析。
但现在越来越多 Agent 开始接工具、接流程、接审批、接自动化执行。
AI 一旦进入生产链路,问题就不再只是回答质量。
而是它每一次行动,能不能被解释、被约束、被追溯。
传统软件的问题,通常有清楚的定位入口
传统软件当然也会出问题。
代码有 Bug。
配置会写错。
依赖会异常。
线上环境也可能和测试环境不一致。
但传统软件有一个基本特点:
大部分行为,在上线前已经被工程师写进代码里。
一个接口会调用哪些服务。
一个按钮会触发什么流程。
一个规则会怎样判断。
一次发布改了哪些代码。
这些东西大体是可以审查、测试、灰度和回滚的。
所以传统运维有一套很清楚的问题定位入口:
-
哪个版本刚发布;
-
哪个配置刚改过;
-
哪个接口开始变慢;
-
哪个依赖出现异常;
-
哪次发布之后指标变差。
这套方法非常有效。
过去十几年,APM、可观测性、SRE 很大程度上就是围绕这套入口不断升级。
系统慢了,看哪里慢。
服务挂了,看哪里挂。
错误率上升,看哪个版本、哪个接口、哪个依赖出了问题。
这套方法背后有一个前提:
系统行为主要由代码和配置决定。
只要掌握代码、配置、依赖和运行环境,企业大体能理解这个系统为什么这样运行。
但 AI 系统开始打破这个前提。

AI 的问题,很多发生在运行时行为里
AI 应用上线以后,它真正的行为,往往不是在代码里一次性写死的。
它会在运行时根据用户输入、上下文、知识检索、工具返回、权限策略和业务状态,临时形成判断。
这意味着:
AI 的行为,不只是执行代码,而是在生产现场里形成。
同一个 Agent,
在不同上下文、权限和业务状态下,
可能形成完全不同的行为。
所以 AI 进入生产以后,企业面对的,
已经不只是一个传统应用。
而是一套新的运行时系统。
我把它叫做:
AI Runtime。
这也是为什么很多企业会发现,AI Demo 很顺,PoC 也能跑,但一进入真实业务场景,问题就变复杂。
因为生产环境不是一个干净的问题集。
而是真实业务现场。
所以,传统运维问:
最近发了哪个版本?
AI 运维还要问:
它当时为什么这么判断?
传统运维问:
哪个接口、哪个配置、哪个依赖出了问题?
AI 运维还要问:
它当时看到了什么上下文?
使用了哪些知识和证据?
为什么选择这个工具?
哪个业务约束没有进入?
哪个权限放大了行为?
这些问题,过去传统运维不需要每天面对。
因为传统软件里,主要逻辑在代码中。
但 AI 系统里,很多关键逻辑是在运行时形成的。
这就是变化最大的地方:
版本,
不再是理解 AI 行为的唯一入口。
过去,
企业通过代码理解系统。
未来,
企业还必须通过运行时行为理解 AI。
你看到了调用链,只能知道请求经过了哪些组件。
你看到了日志,只能知道工具被调用过。
你看到了指标,只能知道系统有没有报错。
但你还不知道:
AI 为什么这样判断。
AI 时代最危险的一类事故:
系统正常,但行为错误
传统生产事故,很多时候表现为系统异常。
服务不可用。
数据库变慢。
接口超时。
发布引入 Bug。
这些问题大多可以通过系统状态发现。
但 AI 进入生产以后,最容易被误判的,往往不是系统挂了。
而是:
系统状态正常,
但 AI 行为错误。

比如,客服 AI 给客户做了一个不该做的承诺。
接口没有报错。
响应时间正常。
知识库也返回了内容。
但它把一个只适用于老客户的政策,用到了新客户身上。
这不是一次系统故障。
这是一次业务承诺错误。
再比如,某次自动修复里,
Agent 为了尽快恢复服务,
直接跳过了生产变更窗口。
从系统指标看,
恢复速度甚至比人工更快。
但问题是:
它不该在那个时间点执行这个动作。
从传统监控视角看,系统甚至可能变好了。
但从企业治理视角看,这已经是一次高风险行为。
这就是 AI 时代真正容易看错的地方。
过去,系统正常,往往意味着问题不大。
但 AI 进入生产以后:
系统正常,
不代表 AI 行为正确。
过去:
系统状态正常,基本意味着系统可信。
未来:
系统状态正常,不代表 AI 行为可信。
所以 AI 时代的运维,不能只问:
系统有没有正常运行?
还要问:
AI 有没有正确行动?
这是两个不同问题。
最后
我不赞成简单说“传统运维失效了”。
这个说法不准确,也容易误导。
传统运维仍然重要。
系统是否可用。
服务是否稳定。
性能是否达标。
故障是否可恢复。
这些永远是基础。
但 AI 进入生产以后,运维体系要多回答一个问题:
AI 是否正确行动?
这就是 AI 进入生产以后,运维体系真正开始变化的地方。
过去的软件系统,
企业治理的是代码。
未来的 AI 系统,
企业真正要治理的,
是运行时行为。
推荐阅读








