一次因核酸系统崩溃而引发的思考

近日，成都核酸、东软集团回应等词条频频冲上热搜，而多次的回应也被网友们戏称为“甩锅”行为，那么，成都核酸系统的崩溃究竟是谁的锅呢？这要从成都市9月1日发布通知说起。

据成都相关部门消息，9月1日至4日，成都在全市范围内开展全员核酸检测。9月2日晚，核酸检测系统出现异常，导致采样排队时间过长，核酸检测进度缓慢，给市民群众带来困扰和不便。做核酸的队伍至少排3个小时，还有工作人员齐齐举起手机找信号的场面也令人唏嘘，网友调侃原来抬头并不一定是看星星。这也是继西安健康码崩溃后的又一大核酸系统故障事件。

而根据东软的回应来看，东软认为此次问题的出现并不是系统层面的问题，而是网络性能问题导致。随后，四川省通信管理局发文反驳了东软说法，表示全市通信网络运行平稳，各核酸检测点移动网络覆盖良好，没有出现网络拥塞和故障。

各方说法不一，对故障原因始终没有明确的界定，让舆论不断发酵，最重要的是影响了全市用户生活。

为此，我们对基调听云9.2号监控的成都当地网络状态进行了分析。共统计了 100万+的终端设备，总计访问量达到 2.3亿次。

查看网络延时和丢包率的指标，发现9月2日网络延时平均在46ms左右，丢包率稳定在 0.2%以下。经数据分析表明，并未发现网络故障。

所以，在面对突如其来的甩锅问题上，我们应该如何正确界定故障发生的责任从而避免甩锅行为呢？

要知道的是，外包项目在交付和验收过程中，我们除了验证基本的功能可用外，不能忽视一个很重要的问题就是压力测试与性能监控。

争做事前诸葛亮，提早预知问题

据统计成都市人口2千万多人。假设集中在6小时内做核酸，平均每小时支持的并发人数是3531666。每秒支持的并发约为1000。基于检测人员的集中度不均衡的因素，假设高峰期是平均并发的2-3倍。则每秒并发“核酸登记”2000-3000左右。

基于以上问题，我们可以在系统上线前针对服务商提供的系统进行全方位的健康度检测，针对使用过程中的任意场景完成压力测试，以确保系统正式使用中能够达到交付标准，从而对系统供应商有量级的考核标准，也就是完成事前定量。

明确问题所在，防止被“甩锅”

中国企业家采访报道，核酸系统看似简单，但背后涉及到电信运营商、云服务平台、运维系统、数据库等多个供应商，还要协调官方管理体系，在执行层面就像装满水的木桶，抽掉任何一条木板，工作都会停摆。有时候某一家供应商出现问题，就会影响整体工作。因此在系统正式上线后的日常运行中，了解用户体验情况，实时分析用户所遇到的问题从而在用户访问过程中对波动情况进行及时分析极为重要。

这里推荐一套基调听云压测和性能监控解决方案。这套方案首先可以帮我们明确以下几点：系统正常运转需要关注的指标；用户体验良好，这些指标需要达到什么样的标准；系统不能达到预期瓶颈和问题根源所在。

基调听云很明确的指出保障小程序用户体验良好需要关注的指标有：页面加载耗时、卡顿率、操作可用性、请求耗时、JS错误率、请求错误率、onReady。

同时基调听云也会给出每个指标的评分标准和行业参考值，最终产出一个性能评分，基于性能评分即可判断系统的用户体验和可用性。

借助基调听云的压力测试产品即可基于软件未来交付后需要支撑的用户规模进行模拟压力，通过逐步增加并发数，可以看到页面打开时间、接口响应时间、卡顿率等关键指标等变化。

在看到前端用户体验的指标变化的同时，也能看到后端服务指标的变化，如下图。

根据服务的指标再去分析性能变差的原因和错误率上升的原因。

分析性能变差可以通过请求分析、追踪分析定位具体慢的原因。下图是一个获取数据库连接超时造成的整个请求变慢。

错误是服务变差的重要信息，基调听云的错误分析可以通过错误趋势->错误列表->错误Message的汇总->Stracetace来由粗粒度到细粒度的逐层分析错误的原因。

一般来说造成服务错误率升高或者响应时间变慢的原因是基础组件问题导，如JVM GC时间过长、CPU利用率过高、内存不足、IO延迟过高、网卡带宽占满等。确认了服务问题后还可以进一步下钻主机、进程、Pod等相关的指标信息，从而确认故障的根因。

因此如果在遇到突发的系统问题时，基调听云可以精准识别出是软件问题还是如东软所声明的网络问题，帮助用户轻松定责。

基调听云不仅仅在前期压测工作可以提供帮助，在日常系统运行中，如用户遇到性能问题，我们也可以快速定位该用户的访问轨迹，以及针对问题进行全链路追踪问题定位👇~

用户访问轨迹，可以看到每个用户访问系统的全过程以及是否发现性能问题，每一步都可以追踪。

当接口慢的时候可以直观分析是当前用户网络还是服务端响应比较慢。

如果确认为服务端响应慢，还可以进行深入的全链路追踪到服务端，查看调用链路。系统会自动判断疑似问题。

全方位可观测体系建立，让问题无所遁形

目前，疫情形势仍十分严峻，各省市的核酸检测机构均承担着较大的责任，因为其承担着全省市级别的用户，无论是对系统的容量、稳定性还是网络性能，都面临着更为严格的挑战和考验。

此次成都核酸检测系统崩溃事件，面对东软突如其来的甩锅行为，成都市疫情防控指挥部相关负责人对媒体表示是核酸系统对短时超大并发量预估不足，导致系统出现卡顿问题。四川省通信管理局随后也第一时间自查网络性能数据指标公布了系统运行数据确认了所出问题并非网络层面，对这口锅格挡并成功防守。

由此可见，在问题出现后，除了要保证自家系统性能稳定，如何精准识别“甩锅”和如何利用性能数据有理有据地“甩锅”也是应具备的技能。基调听云新一代贯通全栈IT与业务的智能可观测性平台的五大层面能力升级：全栈数据采集、多维多源智能分析、以应用和业务为中心、可观测数据的纵横融合打通、全方位可观测。强调了数据所发挥的强大作用。智能可观测性平台的建立，可以极大的保障核酸检测应用系统的稳定运行，从而保障市民权益。

新一代贯通全栈IT与业务的智能可观测性平台，通过对600+技术栈进行适配扩展，将追踪、日志、指标、行为、业务等多源数据统一采集、处理和分析模型，构建基调听云可观测中台，纳入现有技术实践成果，对其进行融合分析，通过OneTrace模型展示整个应用的调用结构，结合独有的AI能力实现根因诊断、异常监测、智能告警，形成完整的可观测体系，最终建立基于业务分析的可视化模型，更深入的帮助用户实现业务可观测性。

Gartner发布2023年十大战略技术趋势，探究应用可观测性发展
可观测性应用使企业机构能够利用他们的数据特征来获得竞争优势。它能够在正确的时间提高正确数据的战略重要性，以便根据明确的数据分析结果采取快速行动，因此可观测性是一种强大的工具。如果能够在战略中予以规划并成功执行，可观测性应用将成为数据驱动型决策的最强支撑。

2022-10-25

继续阅读
数据中心运维可视化
随着Web、App和小程序等多种客户端形式的广泛应用，数据中心运维的复杂性也日益增加。为了提供舒适的用户体验和高效的运维管理，数据中心运维可视化成为关键的工具。

2023-07-19

继续阅读
网络出口压测有哪些关键的步骤？
在当今时代，网络已经得到了普遍的应用，为了获得更好的网络体验，需要做好很多相关的工作。网络出口压测就是比较常见的一种测试方法，可以对网络出口的带宽和其它等性能进行测试，比如测试网络出口的丢包率，以及吞吐量等，以便于技术人员对网络出口质量进行评估，进行下一步的优化，下面就来介绍一下这种测试方法的关键步骤。

2023-04-11

继续阅读

解决方案体现的是一个公司的深度思考能力
一个解决方案体现的不仅仅是产品的能力，更多的是公司或者说是公司的人的深度思考能力。我们通过换位的深度思考，明确问题的本质来解决才是上策，而不是拘泥于形式上的所谓的“解决方案”。

2022-03-23

继续阅读
一部电视剧帮我们理解可观测性
前段时间热播的电视剧《开端》想必不少人都看过的，其新颖的拍摄手法和不落俗套的剧情着实颇具亮点。为什么要说到这部剧呢？因为这部剧可以更好的帮我们理解什么是系统的可观测性，让你从一大堆技术概念中解脱出来。

2022-02-24

继续阅读

一次因核酸系统崩溃而引发的思考

一次因核酸系统崩溃而引发的思考

争做事前诸葛亮，提早预知问题

明确问题所在，防止被“甩锅”

全方位可观测体系建立，让问题无所遁形

能力

关于

工具