使用场景
多元数据采集
角色:运维人员
在建的监控系统多,各自产生的数据相互割裂,无法形成有效的关联,产生不了价值。针对运维数据(指标、日志、事件和拓扑),可从开源监控工具、商用监控软件、API、消息队列、邮件、文档等多种数据来源中实时采集元数据,并对数据进行数据清洗、加工、计算和分析,最终作集中统一的可视化展现。
指标异常检测
角色:运维人员
指标告警的阈值太高会导致漏报遭到投诉,阈值太低会导致噪音太多错过真正的异常。告别传统指标固定阈值、基线阈值不准确问题,根据指标波动的变化例如周期、趋势、时间模式等因素来综合判断指标的波动变化,系统自动优选合适的异常检测算法,针对指标动态变化数据进行实时检测,识别出真正的异常行为触发告警,提高告警准确率。
告警风暴抑制
角色:运维人员
当管理大规模的服务架构时,一旦发生系统故障,将导致大量重复无用的告警风暴,给运维人员造成困扰。基调听云北冥告警平台对警报事件智能的、自动的进行过滤、压缩、合并、去重,最终聚合成一种高级事件即故障通知用户进行处理,减少警报噪音,降低信息干扰,减轻运维人员处理警报的压力。
故障根因分析
角色:运维人员、业务人员
在当今虚拟化和高度冗余的IT环境中,如何快速确定故障发生原因?基调听云北冥告警平台致力于调查影响业务服务的根本原因,利用机器学习技术对大数据提供的上下文信息进行分析,了解事件的相关性、依赖关系和因果关系等相关性特征,推断出可能的根本原因;还可根据用户的反馈提升根因分析算法的准确度,提高运维解决效率,降低服务中断的影响。
与外围系统结合
角色:运维人员
通过集成CMDB使告警事件丰富化,并根据CMDB的资源关联关系增强事件关联能力,在扩大聚合范围、提升聚合精准度的同时,将聚合后的故障与ITSM工单系统打通,形成故障闭环的全生命周期管理,还可通过与呼叫中心集成实现故障语音呼叫。
核心优势
统一监控
从不同的监控工具和平台采集运维数据,对数据进行标准化和丰富化处理,最终实现集中可视化展现,使数据间实现关联分析,达到全局监控、统筹分析、精准决策。
智能降噪
通过 “规则+AI”双重模式实现对事件的智能降噪,在减少频繁干扰的同时,还可以从低级别事件中识别出重要告警自动升级通知用户,避免漏报警。
事件关联
通过人工智能基于大数据分析找出事件关联的本质,辅以CMDB资源拓扑、应用调用链等数据模型,构建关联知识库,将相关联事件进行聚合。
故障定位
构建事件因果关系图模型,通过历史的事件数据、领域知识和相关信息对模型进行训练和学习,根据事件因果关系进行根因分析和故障定位。
AI增强
通过可视化、便于用户理解的语言告知AI如何更好的学习数据背后的逻辑和规律,加快模型训练效果,使AI能力得到加倍增强。
团队高效协同
对发现的故障及时处理,记录处理动作通过事件评论和回复使团队成员及时了解情况,高效沟通、协同处理、快速响应。
客户案例
基调听云服务国内外数千家企业用户,帮助客户不断优化系统性能及用户体验,提高用户满意度和企业竞争力。
在线咨询

下载掌上基调听云

智能业务运维,从现在开始
即刻申请,改善应用体验,提升业务转化,减少用户流失。
申请试用 联系我们