疫情等黑天鹅事件的频发,使得企业更加意识到数字化转型的重要性,也因此加速了数字化转型的需求。数字化转型不仅可以帮助企业适应新的商业环境和市场需求,还能够提高运营效率、降低成本、改善客户体验,以及实现创新和增长。不过,在数字化转型的道路上,大多数企业会面临一个问题:对传统企业或者是 IT 能力薄弱的团队,如何快速地去完成数字化转型?

基于云原生的轻量级框架在云上通过敏捷开发快速实现数字化转型的业务,目前是比较流行的做法。但是享受云原生技术带来的敏捷和便利的同时 ,技术团队也会面临一些新的挑战,比如上层应用复杂度的增加,出现问题时,分析需要使用不同维度的工具,这意味着服务维持、维护运营会更加的困难。比如近期,英国空管系统故障,一条小小的飞行记录导致航班中断 4 小时,给企业预计造成了 1 亿英镑损失。这意味着一旦企业转型,业务高度依赖数字化,系统的可运维性、连续性和可观测性就变得非常的重要。近期,CSDN专访了国内性能监测领域头部厂商基调听云产品VP陈靖华,他从系统性能监测的新手段——可观测性核心技术思路,以及未来性能监测发展,给出了详细的见解。

可观测性:提升云原生复杂系统的监控能力

随着企业数字化转型的加速,传统的基础设施监控(ITIM)、应用性能监控(APM)、网络性能监控(NPM)和日志监控技术已无法满足云原生环境下的应用系统高度连续性的运维监控诉求。可观测性(Observability)作为新兴的技术和理念,近年来得到了广泛关注。基调听云作为国内可观测性技术的探索者和实践者,在产品矩阵中增加了可观测性,并针对云原生环境进行了技术创新,以提升在复杂系统中的观测能力。

基调听云产品 VP 陈靖华在采访中表示,可观测性兴起的原因在于云原生和微服务架构下,系统的复杂度大幅提升,传统的监控手段效率下降,无法在复杂系统中快速定位问题。而基于CNCF OpenTelemetry标准的确立,可观测性系统或平台通过统一采集各维度监控数据,构建关联性,在未来将有效提升复杂系统的可观测能力。

具体来看,疫情期间远程办公和线上业务需求激增,促使许多企业加速了数字化转型步伐,这使系统架构也向微服务和云原生演进。这给传统的监控带来了巨大挑战。以往传统的监控系统依赖人工构建的模板和经验进行问题分析定位,但云原生系统复杂动态,许多问题并不在预判范围内。传统监控系统效率下降,无法快速定位复杂的未知的系统故障。而可观测性正是通过采集更多维度监控数据,实现更全面的系统洞察,才得以应对云原生环境的监控难题。

可观测性的核心能力是什么

作为国内性能监测领域的重要厂商,基调听云探索和总结了可观测性的四大核心能力,具体来说:

采集即治理,构建一体化探针能力

基调听云通过自主研发的一体化 Agent 探针,实现了从底层基础设施到应用层、业务层和体验层各维度监控数据的自动化采集。这套探针体系经过多年积累,支持国产操作系统和中间件,对云原生组件和信创组件都具有非常好的适配性。其中的关键创新在于“采集即治理”的理念,不再是传统的分离采集和治理,而是在探针端就完成监控数据的标注、过滤等治理工作。这种一体化采集和即时治理的设计,大幅降低了后端的数据处理压力,也提升了监控分析的效果。

用户体验至上,打造 DEM 能力

新冠疫情的影响,让数字化转型比以往更加注重用户体验,无论是最终用户的办事和购物体验,还是公司员工和合作伙伴的远程办公体验。基调听云非常重视对终端用户体验的监测,这与可观测性要以用户和业务为中心的思想高度一致。基调听云通过前端探针采集移动App,网站和各种小程序的用户操作行为和体验数据,再与后台系统性能数据关联,可以准确反映用户视角下的体验状况。这套能力也称为DEM(Digital Experience Management)。未来基调听云还会持续加强DEM建设,使得业务系统的监测更加用户导向。

构建可扩展的数据湖仓

为了支持可观测性的落地,基调听云专门设计并搭建了一个可以并行存取多源异构数据的“数据湖仓”平台。一方面如“数据湖”般可以低成本容纳