俗话说:“巧妇难为无米之炊”。想要把系统性能问题查个水落石出,就必须先准备好充足而细致的数据。性能数据不仅是可观测性分析的基础,定位故障的基石,更是做出正确优化决策的前提。
观云从多种维度采集丰富的监控数据,包括指标(Metrics)、日志(Logs)和链路(Traces)等,从而支撑可观测平台全面、准确的定位及分析系统问题。

 

 

 

链路(Traces)数据的采集方式

 

 

链路(Traces)数据的采集方式主要包括:探针(Agent)方式 和 SDK 方式。
· 其中,探针(Agent)方式:
无需修改应用源码,通过自动注入的方式实现数据采集。目前支持多种主流技术栈,包括 Java、.NET、.NET Core、Node.js、PHP、Python、Go、Nginx 等。
支持Linux、Windows等主流操作系统,支持Amd64和Arm64 CPU架构。
支持对运行在 Docker 容器 和 Kubernetes Pod 中的应用自动注入探针,实现无侵入部署。
同时,提供 黑白名单过滤机制 与 标签(Label)控制策略,可灵活选择采集范围,显著简化部署与管理复杂度,更贴近实际运维管理模式。· 其中,SDK 方式:
通过在应用中嵌入采集代码并重新编译实现数据采集,适用于无法自动注入的语言或有更高自定义需求的场景。目前提供 C/C++ 与 Go Lang SDK。

 

 

 

采集的数据内容主要包括

 

 

采集的数据内容主要包括:事务、数据库、NoSQL、MQ、网络I/O、异常、错误、JVM、HTTP Headers、自定义的方法参数等各种数据及业务指标。

 

 

 

指标(Metrics)数据的采集方式

 

 

指标(Metrics)数据的采集方式主要包括:使用自研基础设施Infra探针采集 、promethus指标接入、 opentelemetry指标接入方式。自研基础设施Infra探针目的是采集操作系统和组件的监控指标,与APM的应用指标关联,快速帮用户定位问题,同时基调听云基础设施希望最小化用户部署的工作量,所以设计上希望能原生接入用户原有的监控系统如Zabbix、Promethus等· 其中,自研基础设施Infra探针不但可以采集本机主机CPU、内存、网络、磁盘IO等基础指标数据,还可以通过读取远程主机的状态接口,获取组件、服务、数据库等监控对象的性能指标数据,例如Nginx指标,Mysql指标,MQ指标等· 其中,promethus指标接入可以通过promethus的Remote read或Remote write 接口接入标准promethus格式的监控指标数据,经过指标治理接入观云平台。
· 其中,opentelemetry指标接入可以通过opentelemetry的Metric接口接入标准opentelemetry格式的监控指标数据,经过指标治理接入观云平台。

 

 

 

日志(Logs)数据的采集方式

 

 

日志(Logs)数据的采集方式主要包括:使用自研基础设施Infra探针采集 和 opentelemetry指标接入方式:· 其中,自研基础设施Infra探针不但可以采集本机应用产生的日志数据,还可以采集容器内应用产生的日志数据。
· 其中,opentelemetry指标接入可以通过opentelemetry的Logs接口接入标准opentelemetry格式的日志数据,经过治理接入观云平台。除了上述三大类数据外,观云平台还支持基于 eBPF(Extended Berkeley Packet Filter) 技术的数据采集能力,能够对进程执行 on-CPU 堆栈剖析、off-CPU 堆栈剖析,以及对进程的网络行为进行深度观察与分析。堆栈剖析(Stack Profiling)
观云通过 eBPF 技术采集进程中所有线程的堆栈信息,不仅覆盖 应用层函数调用栈,还包含 内核态调用栈。采集到的堆栈地址会自动进行符号化转换,映射为可读的源代码与函数名称。
· 结合 火焰图(Flame Graph) 展示形式,用户可以直观地分析进程当前正在执行的操作路径,从而快速定位性能热点与故障根因。网络观测(Network Observation)
观云利用 eBPF 技术无侵入地采集进程产生的网络数据,
· 采集的维度包括:进程 PID、对应网卡名称、对端主机 IP 与端口等;
· 采集的指标包括:连接失败次数、连接成功次数及耗时、发包次数与字节数、收包次数与字节数、丢包次数、重传次数、通信中断次数、RTT 网络时延、RTT 波动方差、拥塞窗口大小、零窗口探测次数等。通过这些维度与指标,观云能够构建应用间的实时拓扑关系,揭示节点间的网络依赖与性能瓶颈,帮助用户快速定位复杂系统中的网络异常与性能问题。


推荐阅读

  • CDN质量评测能够准确测量CDN的响应时间,包括节点之间的传输速度以及从用户请求到服务器响应的时间。通过评测结果,网站运营者可以了解CDN节点的性能优势和瓶颈所在,有针对性地优化网站性能。CDN 质量评测可以帮助检测和分析CDN节点的传输稳定性。通过测量传输延迟、丢包率以及数据完整性等指标,网站运营者可以判断CDN节点在不同地域和网络环境下的表现,以便做出合理的节点选择和调整策略。

    2023-06-08

  • 在我们进入数字化时代的深处,性能监控工具不再只是一个简单的诊断工具,而是一个对于企业和技术团队来说具有决策意义的重要工具。随着技术和业务的复杂性逐渐增加,对系统的性能进行实时、准确的监控变得至关重要。那么性能监控工具的具体功能有哪些?

    2023-10-18

  • 在当今数字化时代,应用性能监控是公司提高业务效率、确保用户体验的不可或缺的一环。选择一家品质优良的应用性能监控服务商成为企业关注的重点。本文将深入研究应用性能监控,明确哪家品质优良,为企业在选择服务提供商时提供指导。

    2023-12-26

  • 拨测监控方案是指通过对设备、网络以及服务进行定期拨测测试,实时监控其性能和可用性的方案。随着互联网的发展和使用规模的不断扩大,该监控方案在维护网络运行稳定和提供优质服务方面起到了重要作用。

    2024-01-23

  • 问题也不容忽视,如网络故障、系统崩溃和数据泄露等,这些问题可能会让我们的数字生活变得一团糟。为了满足消费者的需求,基调听云公司研发了一款专门为普通消费者打造的it智能运维管理系统,旨在提供易用性、可靠性和用户友好性的IT解决方案。

    2023-10-27