AI观测站｜RAG 最危险的，不是答错，而是“看起来对”

大家好，我是金全。

很多人觉得，企业接入知识库以后，AI 就不会再胡说八道。

但企业里更难处理的一类问题，

恰恰不是编出来的。

而是查出来的。

比如在银行，一个业务人员问 AI：

某个客户是否符合一项产品的办理条件？

AI 很快给出答案。

引用了制度原文。

标出了具体条款。

出处是真的，内容也没有过期，回答逻辑看起来没有问题。

但最后，答案还是错了。

原因并不复杂：

这份制度适用于零售客户。

当前咨询的，却是一家企业客户。

AI 没有胡说。

它找到的资料也没有错。

真正的问题是：

资料是真的。

但它不能用在这次判断上。

这可能是企业做 RAG 和知识库时，比“查不到”更危险的一类问题。

RAG 最大的问题，往往不是查不到

过去大家担心大模型幻觉。

AI 没有依据，也能说得很像真的。

所以很多企业开始建设知识库，

希望 AI 回答问题时有出处、有引用、能追溯。

方向当然没有错。

但 RAG 真正进入生产以后，企业很快会遇到另一个问题：

AI 找到了资料。

资料也确实存在。

回答甚至比过去更完整、更专业。

可它仍然可能把事情说错。

而且这种错误更难发现。

一段明显编出来的话，人会本能地怀疑。

但当答案带着文档名称、制度原文和具体条款出现时，大家反而更容易相信。

明显的错误容易被发现。

有真实资料支撑的错误，更容易被采用。

所以我越来越觉得：

RAG 最危险的时候，往往不是没有找到资料。

而是找到了一份看起来完全正确的资料。

检索成功，不等于资料用对了

RAG 可以帮助 AI 找到信息。

但它不能保证找到的资料正好适合眼前这件事，

也不能保证资料没有过期、没有遗漏。

这是一个很容易被忽略的区别。

检索系统关心的是：

哪段内容和问题更相关。

但企业真正关心的是：

这段内容能不能用在眼前这件事上。

这两件事，并不相同。

找得更准，只解决检索问题。

至于这份资料能不能用在眼前这件事上，

仍然是业务问题。

一份资料可能和问题高度相关。

它也可能措辞权威、结构完整、来源可靠。

但只要适用对象、业务口径或者现场条件发生变化，它就可能把 AI 带向一个错误结论。

所以：

检索到了，不等于找对了。

引用准确，不等于口径一致。

内容真实，不等于信息已经足够。

这三个“不等于”，才是 RAG 进入企业以后真正难处理的地方。

第一层：检索到了，不等于找对了

这是企业知识库里非常常见，也很难只靠相似度解决的问题。

同一项产品，

个人客户和企业客户的办理规则可能不同。

同一份政策，

在不同地区、不同机构、不同风险等级下，适用条件也可能不同。

同一套操作规范，

在测试环境可以执行，到了生产环境却必须经过审批。

这些资料单独看，都没有错。

但 AI 要先弄清楚：

当前面对的到底是谁。

处于什么场景。

适用哪一套规则。

举个例子。

一个 Agent 查询到一份“服务异常处置规范”。

文档中明确写着：

连续出现三次健康检查失败，可以重启实例。

这条规则是真的。

但它只适用于普通业务时段。

当前却处在重保窗口。

这时候，AI 即使准确引用了规则，也不能直接据此行动。

资料本身没有错。

错的是 AI 把它用在了不适用的现场。

相关，不等于适用。

RAG 可以找到和问题最相似的资料。

但 AI 还要弄清楚，这份资料是不是眼前这个客户、这个地区、这个时间和这个业务状态真正该用的规则。

第二层：引用准确，不等于口径一致

还有一类问题，比版本错误更隐蔽。

数据是真的。

查询结果也是真的。

但双方说的，可能根本不是同一件事。

比如：

“华东”包不包括安徽？

“营收”是否扣除退款？

“有效客户”是指开户、发生交易，还是最近仍然活跃？

“故障恢复”是技术指标恢复，还是业务已经确认恢复？

这些问题，人和人之间都经常说不清楚。

到了 AI 系统里，

如果企业没有给出统一口径，

模型拿到的数据越精确，

答案反而可能越有迷惑性。

它可以给出一串完整数字。

可以生成一份结构清楚的分析。

甚至可以精确到小数点后两位。

但如果“营收”这个词在不同系统里代表不同含义，

后面的分析做得再漂亮，也可能建立在不同口径的数据上。

数据准确，不代表业务含义一致。

这已经不是简单的检索准确率问题。

而是企业有没有把这些数据的真实含义说清楚。

一份资料被准确引用，只能说明文字被找到了。

它不能证明回答采用了正确、统一的业务口径。

第三层：内容真实，不等于信息已经足够

AI 还可能找到几条完全正确的资料，

却仍然得不出可靠的结论。

因为真实的业务现场，往往不在一份文档里。

有资料，不等于资料已经够用。

比如：

AI 找到了授信规则，却没有拿到最新风险名单。
找到了历史处置工单，却没有看到当前正处于变更窗口。
找到了产品条款，却遗漏了客户签署的补充协议。
找到了数据库告警，却不知道一项重要的批处理任务正在执行。

这里每一条已检索到的内容都可能是真的。

问题出在那些没有进入 AI 视野的信息。

这也是 RAG 很容易制造的一种错觉：

只要给出了引用，做判断需要的资料就已经齐了。

一条资料是否真实，

和现场信息是否完整，

是两个问题。

所以，不能只看已经找到的资料对不对。

还要看把它放回当时的业务现场，信息是不是已经足够。

知识，正在成为新的生产依赖

我做了十几年 APM 和可观测性。

过去很重要的一件事，是追踪服务依赖。

一次请求经过了哪些服务，访问了哪些数据库，调用了哪些接口。

因为这些依赖会直接影响结果。

AI 进入生产以后，企业开始出现另一类依赖。

制度、业务口径、历史记录和现场信息，

也开始直接影响 AI 怎么判断、怎么行动。

它们不再只是供人查阅的参考资料。

服务版本错了，可能导致系统故障。

知识的版本、口径或者使用范围错了，同样可能把 AI 带向错误的结果。

所以从某种意义上说：

知识，正在成为一种新的生产依赖。

过去企业追踪技术依赖。

未来还要开始追踪知识依赖。

企业不能只记录 AI 引用了什么

上一篇谈 AI 可观测性，我提出企业需要还原：

AI 当时到底看到了什么。

到了 RAG 场景，这个问题还要继续往下问。

企业不能只记录：

检索到了哪个文档。

还要知道：

这份资料来自哪个系统和版本。

当时是否仍然有效。

能用于哪些客户、地区和业务场景。

为什么 AI 会看到它。

有没有新规则已经覆盖了它。

有没有更关键的资料被遗漏。

它最终又怎样影响了 AI 的回答、判断或者动作。

把这些信息连起来，企业才可能看清 AI 这次到底用了哪些知识。

企业还要知道：

AI 为什么会用这份资料来做判断。

别让 AI 事后把理由讲圆

发现答案有问题以后，有人会直接问 AI：

你为什么引用这份资料？

模型通常能给出一段很完整的解释。

但这段解释，是它现在重新生成的一次回答。

它可能合理。

却未必能证明当时真实发生了什么。

所以企业需要留下的，不是模型事后的自我说明。

而是当时真正留下来的记录：

当时检索到了什么。

资料来自哪里。

它是哪个版本，能用在什么场景。

哪些内容真的被 AI 看到了。

最终引用了什么。

这些资料如何影响了判断和行动。

只有这些信息能够被核对，企业才可能判断：

问题出在知识库。

出在检索。

出在业务口径。

还是出在 AI 对当前现场的理解。

最后

企业建设知识库，

不是为了让 AI 的回答看起来更有出处。

而是为了让它真正拿到能用的资料。

这两者之间，还有很长一段距离。

所以，企业真正需要知道的，

不只是 AI 引用了什么。

还要知道：

这些资料当时还有效吗，信息够不够，能不能用在眼前这件事上。

AI 最危险的时候，往往不是没有依据。

而是依据看起来完全正确。

#AI系统 #AI可观测性 #因果AI #AgentOps #AI运行系统

推荐阅读

移动真机拨测有什么用
随着移动设备的普及和移动应用的快速发展，确保应用在所有手机上的正常运行变得越来越重要。移动真机拨测是一种测试方法，它可以确保在不同的手机型号、操作系统版本和网络环境下，移动应用的质量和用户体验，提高移动应用的稳定性和可靠性。本文基调听云将阐述移动真机拨测的用途。

2023-05-04

继续阅读
为什么APM全链路监控如此重要！
APM监控可以监控应用程序的每个环节，从客户端到服务端再到数据库，甚至是第三方服务的调用。通过实时监控这些环节，我们可以更快速地定位问题，并及时采取措施解决它们。更重要的是，这样的监控可以帮助我们提高业务的可用性和性能，提升用户体验，从而促进公司的业务发展。

2023-05-31

继续阅读
apm应用性能管理厂家
在互联网时代，应用性能成为企业竞争力的重要组成部分。为了确保应用程序始终以高效、稳定的方式运行，apm应用性能管理厂家成为众多企业和机构的好帮手。本文将为您介绍apm应用性能管理厂家的相关概念、工作原理以及行业应用。

2023-08-28

继续阅读

it基础设施监控工具
随着企业数字化程度的提升，it基础设施监控工具成为保障业务稳定运行的关键一环。而在这个信息爆炸的时代，如何高效地监控it基础设施已经成为企业管理者的一项紧迫任务。本文将从效能提升和系统稳定性两个关键角度展开，了解其价值。

2024-01-17

继续阅读
CDN质量优化
CDN质量优化是指通过一系列技术手段，对内容分发网络（CDN）进行优化，提升其性能和可靠性，从而提高网站访问速度和用户体验。内容交付网络（CDN）是一种基于用户地理位置、网页来源和内容交付服务器的分布式服务器的系统，该系统将页面和其他Web内容交付给用户。CDN质量优化常用的技术手段有哪些？

2023-06-14

继续阅读

AI观测站｜RAG 最危险的，不是答错，而是“看起来对”

AI观测站｜RAG 最危险的，不是答错，而是“看起来对”

能力

关于

工具