基调听云北冥

AI实现告警收敛,场景化告警触发避免告警风暴

AI实现告警收敛,场景化告警触发避免告警风暴

基调听云北冥统一告警管理平台,利用AI技术实现对Zabbix、Prometheus等监控平台的告警收敛,以及基于机器学习技术的场景化告警触发,有效避免告警风暴及告警疲劳。

申请试用

统一监控

从不同的监控工具和平台采集运维数据,对数据进行标准化和丰富化处理,最终实现集中可视化展现,使数据间实现关联分析,达到全局监控、统筹分析、精准决策。

智能降噪

通过 “规则+AI”双重模式实现对事件的智能降噪,在减少频繁干扰的同时,还可以从低级别事件中识别出重要告警自动升级通知用户,避免漏报警。

事件关联

通过人工智能基于大数据分析找出事件关联的本质,辅以CMDB资源拓扑、应用调用链等数据模型,构建关联知识库,将相关联事件进行聚合。

故障定位

构建事件因果关系图模型,通过历史的事件数据、领域知识和相关信息对模型进行训练和学习,根据事件因果关系进行根因分析和故障定位。

AI增强

通过可视化、便于用户理解的语言告知AI如何更好的学习数据背后的逻辑和规律,加快模型训练效果,使AI能力得到加倍增强。

团队高效协同

对发现的故障及时处理,记录处理动作通过事件评论和回复使团队成员及时了解情况,高效沟通、协同处理、快速响应。

多数据接入

多元数据采集

多元数据采集

在建的监控系统多,各自产生的数据相互割裂,无法形成有效的关联,产生不了价值。针对运维数据(指标、日志、事件和拓扑),可从开源监控工具、商用监控软件、API、消息队列、邮件、文档等多种数据来源中实时采集元数据,并对数据进行数据清洗、加工、计算和分析,最终作集中统一的可视化展现。

异常检测

指标异常检测

指标异常检测

指标告警的阈值太高会导致漏报遭到投诉,阈值太低会导致噪音太多错过真正的异常。告别传统指标固定阈值、基线阈值不准确问题,根据指标波动的变化例如周期、趋势、时间模式等因素来综合判断指标的波动变化,系统自动优选合适的异常检测算法,针对指标动态变化数据进行实时检测,识别出真正的异常行为触发告警,提高告警准确率。

告警收敛

告警风暴抑制

告警风暴抑制

当管理大规模的服务架构时,一旦发生系统故障,将导致大量重复无用的告警风暴,给运维人员造成困扰。基调听云北冥告警平台对警报事件智能的、自动的进行过滤、压缩、合并、去重,最终聚合成一种高级事件即故障通知用户进行处理,减少警报噪音,降低信息干扰,减轻运维人员处理警报的压力。

根因分析

故障根因分析

故障根因分析

在当今虚拟化和高度冗余的IT环境中,如何快速确定故障发生原因?基调听云北冥告警平台致力于调查影响业务服务的根本原因,利用机器学习技术对大数据提供的上下文信息进行分析,了解事件的相关性、依赖关系和因果关系等相关性特征,推断出可能的根本原因;还可根据用户的反馈提升根因分析算法的准确度,提高运维解决效率,降低服务中断的影响。

多元管理

与外围系统结合

与外围系统结合

通过集成CMDB使告警事件丰富化,并根据CMDB的资源关联关系增强事件关联能力,在扩大聚合范围、提升聚合精准度的同时,将聚合后的故障与ITSM工单系统打通,形成故障闭环的全生命周期管理,还可通过与呼叫中心集成实现故障语音呼叫。

产品案例

产品案例

“响必应之于同声,道固从之于同类”

— 唐·骆宾王

查看更多