近日,成都核酸、东软集团回应等词条频频冲上热搜,而多次的回应也被网友们戏称为“甩锅”行为,那么,成都核酸系统的崩溃究竟是谁的锅呢?这要从成都市9月1日发布通知说起。

据成都相关部门消息,9月1日至4日,成都在全市范围内开展全员核酸检测。9月2日晚,核酸检测系统出现异常,导致采样排队时间过长,核酸检测进度缓慢,给市民群众带来困扰和不便。做核酸的队伍至少排3个小时,还有工作人员齐齐举起手机找信号的场面也令人唏嘘,网友调侃原来抬头并不一定是看星星。这也是继西安健康码崩溃后的又一大核酸系统故障事件。

而根据东软的回应来看,东软认为此次问题的出现并不是系统层面的问题,而是网络性能问题导致。随后,四川省通信管理局发文反驳了东软说法,表示全市通信网络运行平稳,各核酸检测点移动网络覆盖良好,没有出现网络拥塞和故障。

各方说法不一,对故障原因始终没有明确的界定,让舆论不断发酵,最重要的是影响了全市用户生活。

为此,我们对基调听云9.2号监控的成都当地网络状态进行了分析。共统计了 100万+的终端设备,总计访问量达到 2.3亿次。
查看网络延时和丢包率的指标,发现9月2日网络延时平均在46ms左右,丢包率稳定在 0.2%以下。经数据分析表明,并未发现网络故障

所以,在面对突如其来的甩锅问题上,我们应该如何正确界定故障发生的责任从而避免甩锅行为呢?

要知道的是,外包项目在交付和验收过程中,我们除了验证基本的功能可用外,不能忽视一个很重要的问题就是压力测试与性能监控。

争做事前诸葛亮,提早预知问题

 

据统计成都市人口2千万多人。假设集中在6小时内做核酸,平均每小时支持的并发人数是3531666。每秒支持的并发约为1000。基于检测人员的集中度不均衡的因素,假设高峰期是平均并发的2-3倍。则每秒并发“核酸登记”2000-3000左右。

基于以上问题,我们可以在系统上线前针对服务商提供的系统进行全方位的健康度检测,针对使用过程中的任意场景完成压力测试,以确保系统正式使用中能够达到交付标准,从而对系统供应商有量级的考核标准,也就是完成事前定量。

明确问题所在,防止被“甩锅”

 

中国企业家采访报道,核酸系统看似简单,但背后涉及到电信运营商、云服务平台、运维系统、数据库等多个供应商,还要协调官方管理体系,在执行层面就像装满水的木桶,抽掉任何一条木板,工作都会停摆。有时候某一家供应商出现问题,就会影响整体工作。因此在系统正式上线后的日常运行中,了解用户体验情况,实时分析用户所遇到的问题从而在用户访问过程中对波动情况进行及时分析极为重要。

这里推荐一套基调听云压测和性能监控解决方案。这套方案首先可以帮我们明确以下几点:系统正常运转需要关注的指标用户体验良好这些指标需要达到什么样的标准系统不能达到预期瓶颈和问题根源所在

基调听云很明确的指出保障小程序用户体验良好需要关注的指标有:页面加载耗时、卡顿率、操作可用性、请求耗时、JS错误率、请求错误率、onReady。

同时基调听云也会给出每个指标的评分标准和行业参考值,最终产出一个性能评分,基于性能评分即可判断系统的用户体验和可用性。

借助基调听云的压力测试产品即可基于软件未来交付后需要支撑的用户规模进行模拟压力,通过逐步增加并发数,可以看到页面打开时间、接口响应时间、卡顿率等关键指标等变化。

在看到前端用户体验的指标变化的同时,也能看到后端服务指标的变化,如下图。

根据服务的指标再去分析性能变差的原因和错误率上升的原因。

分析性能变差可以通过请求分析、追踪分析定位具体慢的原因。下图是一个获取数据库连接超时造成的整个请求变慢。

错误是服务变差的重要信息,基调听云的错误分析可以通过错误趋势->错误列表->错误Message的汇总->Stracetace来由粗粒度到细粒度的逐层分析错误的原因。

一般来说造成服务错误率升高或者响应时间变慢的原因是基础组件问题导,如JVM GC时间过长、CPU利用率过高、内存不足、IO延迟过高、网卡带宽占满等。确认了服务问题后还可以进一步下钻主机、进程、Pod等相关的指标信息,从而确认故障的根因。

因此如果在遇到突发的系统问题时基调听云可以精准识别出是软件问题还是如东软所声明的网络问题,帮助用户轻松定责

基调听云不仅仅在前期压测工作可以提供帮助在日常系统运行中,如用户遇到性能问题我们也可以快速定位该用户的访问轨迹以及针对问题进行全链路追踪问题定位👇~

用户访问轨迹可以看到每个用户访问系统的全过程以及是否发现性能问题每一步都可以追踪

当接口慢的时候可以直观分析是当前用户网络还是服务端响应比较慢。

如果确认为服务端响应慢还可以进行深入的全链路追踪到服务端查看调用链路系统会自动判断疑似问题

全方位可观测体系建立,让问题无所遁形

 

目前,疫情形势仍十分严峻,各省市的核酸检测机构均承担着较大的责任,因为其承担着全省市级别的用户,无论是对系统的容量、稳定性还是网络性能,都面临着更为严格的挑战和考验。

此次成都核酸检测系统崩溃事件,面对东软突如其来的甩锅行为,成都市疫情防控指挥部相关负责人对媒体表示是核酸系统对短时超大并发量预估不足,导致系统出现卡顿问题。四川省通信管理局随后也第一时间自查网络性能数据指标公布了系统运行数据确认了所出问题并非网络层面,对这口锅格挡并成功防守。

由此可见,在问题出现后,除了要保证自家系统性能稳定,如何精准识别“甩锅”和如何利用性能数据有理有据地“甩锅”也是应具备的技能。基调听云新一代贯通全栈IT与业务的智能可观测性平台的五大层面能力升级:全栈数据采集、多维多源智能分析、以应用和业务为中心、可观测数据的纵横融合打通、全方位可观测。强调了数据所发挥的强大作用。智能可观测性平台的建立,可以极大的保障核酸检测应用系统的稳定运行,从而保障市民权益。

新一代贯通全栈IT与业务的智能可观测性平台,通过对600+技术栈进行适配扩展,将追踪、日志、指标、行为、业务等多源数据统一采集、处理和分析模型,构建基调听云可观测中台,纳入现有技术实践成果,对其进行融合分析,通过OneTrace模型展示整个应用的调用结构,结合独有的AI能力实现根因诊断、异常监测、智能告警,形成完整的可观测体系,最终建立基于业务分析的可视化模型,更深入的帮助用户实现业务可观测性。

  • 在当今数字化时代,企业的成功与否在很大程度上取决于其应用程序的性能表现。apm应用性能管理服务​因此应运而生,作为一项关键策略,帮助企业实时监测、分析、优化应用程序的性能。

    2023-08-16

    继续阅读
  • APM监控系统是一种应用于企业级应用程序的性能监控和管理工具。它通过实时监控应用程序的运行状态、性能和错误率等指标帮助企业快速发现和解决应用程序故障,优化应用程序性能进而提高业务连续性和可靠性。以下是APM监控系统​的几个个主要优势。

    2023-10-20

    继续阅读
  • 在当今数字化浪潮中,企业的IT系统扮演着至关重要的角色。为了确保系统的高效运行,apm监控技术应运而生。apm(Application Performance Monitoring)监控不仅仅是一项技术,更是保障业务正常运行的重要保障。

    2024-01-16

    继续阅读
  • 在快节奏商业环境中,企业对高性能、高可用性和高效率的需求越来越高。而性能监控平台作为用于监测和管理系统、可实时监控系统的运行情况。通过能够实时监控和诊断系统问题,提高系统的可用性和性能表现。那么,其具体的作用是什么?

    2023-11-20

    继续阅读
  • 随着企业数字化程度的提升,it基础设施监控工具成为保障业务稳定运行的关键一环。而在这个信息爆炸的时代,如何高效地监控it基础设施已经成为企业管理者的一项紧迫任务。本文将从效能提升和系统稳定性两个关键角度展开,了解其价值。

    2024-01-17

    继续阅读