俗话说:“巧妇难为无米之炊”。想要把系统性能问题查个水落石出,就必须先准备好充足而细致的数据。性能数据不仅是可观测性分析的基础,定位故障的基石,更是做出正确优化决策的前提。
观云从多种维度采集丰富的监控数据,包括指标(Metrics)、日志(Logs)和链路(Traces)等,从而支撑可观测平台全面、准确的定位及分析系统问题。

 

 

 

链路(Traces)数据的采集方式

 

 

链路(Traces)数据的采集方式主要包括:探针(Agent)方式 和 SDK 方式。
· 其中,探针(Agent)方式:
无需修改应用源码,通过自动注入的方式实现数据采集。目前支持多种主流技术栈,包括 Java、.NET、.NET Core、Node.js、PHP、Python、Go、Nginx 等。
支持Linux、Windows等主流操作系统,支持Amd64和Arm64 CPU架构。
支持对运行在 Docker 容器 和 Kubernetes Pod 中的应用自动注入探针,实现无侵入部署。
同时,提供 黑白名单过滤机制 与 标签(Label)控制策略,可灵活选择采集范围,显著简化部署与管理复杂度,更贴近实际运维管理模式。· 其中,SDK 方式:
通过在应用中嵌入采集代码并重新编译实现数据采集,适用于无法自动注入的语言或有更高自定义需求的场景。目前提供 C/C++ 与 Go Lang SDK。

 

 

 

采集的数据内容主要包括

 

 

采集的数据内容主要包括:事务、数据库、NoSQL、MQ、网络I/O、异常、错误、JVM、HTTP Headers、自定义的方法参数等各种数据及业务指标。

 

 

 

指标(Metrics)数据的采集方式

 

 

指标(Metrics)数据的采集方式主要包括:使用自研基础设施Infra探针采集 、promethus指标接入、 opentelemetry指标接入方式。自研基础设施Infra探针目的是采集操作系统和组件的监控指标,与APM的应用指标关联,快速帮用户定位问题,同时基调听云基础设施希望最小化用户部署的工作量,所以设计上希望能原生接入用户原有的监控系统如Zabbix、Promethus等· 其中,自研基础设施Infra探针不但可以采集本机主机CPU、内存、网络、磁盘IO等基础指标数据,还可以通过读取远程主机的状态接口,获取组件、服务、数据库等监控对象的性能指标数据,例如Nginx指标,Mysql指标,MQ指标等· 其中,promethus指标接入可以通过promethus的Remote read或Remote write 接口接入标准promethus格式的监控指标数据,经过指标治理接入观云平台。
· 其中,opentelemetry指标接入可以通过opentelemetry的Metric接口接入标准opentelemetry格式的监控指标数据,经过指标治理接入观云平台。

 

 

 

日志(Logs)数据的采集方式

 

 

日志(Logs)数据的采集方式主要包括:使用自研基础设施Infra探针采集 和 opentelemetry指标接入方式:· 其中,自研基础设施Infra探针不但可以采集本机应用产生的日志数据,还可以采集容器内应用产生的日志数据。
· 其中,opentelemetry指标接入可以通过opentelemetry的Logs接口接入标准opentelemetry格式的日志数据,经过治理接入观云平台。除了上述三大类数据外,观云平台还支持基于 eBPF(Extended Berkeley Packet Filter) 技术的数据采集能力,能够对进程执行 on-CPU 堆栈剖析、off-CPU 堆栈剖析,以及对进程的网络行为进行深度观察与分析。堆栈剖析(Stack Profiling)
观云通过 eBPF 技术采集进程中所有线程的堆栈信息,不仅覆盖 应用层函数调用栈,还包含 内核态调用栈。采集到的堆栈地址会自动进行符号化转换,映射为可读的源代码与函数名称。
· 结合 火焰图(Flame Graph) 展示形式,用户可以直观地分析进程当前正在执行的操作路径,从而快速定位性能热点与故障根因。网络观测(Network Observation)
观云利用 eBPF 技术无侵入地采集进程产生的网络数据,
· 采集的维度包括:进程 PID、对应网卡名称、对端主机 IP 与端口等;
· 采集的指标包括:连接失败次数、连接成功次数及耗时、发包次数与字节数、收包次数与字节数、丢包次数、重传次数、通信中断次数、RTT 网络时延、RTT 波动方差、拥塞窗口大小、零窗口探测次数等。通过这些维度与指标,观云能够构建应用间的实时拓扑关系,揭示节点间的网络依赖与性能瓶颈,帮助用户快速定位复杂系统中的网络异常与性能问题。


推荐阅读

  • CDN监测是指监测内容分发网络的活动,可以帮助网站管理员和运营商确保CDN服务的稳定性和高效性。它对于网站的性能、安全和可用性都有着至关重要的作用。 CDN的监测可以帮助优化网站性能。CDN作为一种加速内容分发的技术,可以将网站上的内容分发到全球各地的服务器上,从而提高网站的访问速度和性能。

    2023-04-24

  • 对于数字化转型最关键的是要搞清楚数字化只是手段,转型才是目的,而这背后更重要的是:转型是为了满足新的需求,而不是为了应用新技术,这才是根本。

    2022-01-12

  • 网络链路故障的发生可能导致网站访问延迟、数据丢失以及在线服务中断等问题。为了快速解决这些故障,我们需要进行科学而系统的链路故障分析。网络链路故障分析是一项复杂的工作,需要技术专家对网络结构、设备以及数据流进行仔细的排查和分析。

    2023-07-06

  • 远程监控网络性能是通过使用专门的软件工具和技术手段,实时监测和分析网络的各项指标和运行状态。它可以跟踪网络的带宽利用率、延迟、丢包率、流量分布等关键指标,并提供警报和异常报告。

    2024-01-09

  • 应用性能对企业的成功有着不可忽视的影响。为了满足用户要求,并确保业务连续运行,apm(应用性能管理)已经成为了企业的必备工具。这种智能化解决方案通过监控、分析和优化应用性能,不仅提升用户满意度,还促进了业务的持续增长。

    2023-08-21