微信公众号
关注公众号了解更多
服务热线:
400-898-9580
联系邮箱:
hezuo@tingyun.com
智能运维的数据可见性如何减少运维工作量
2021/09/16

企业将数据标准化后,通常可以使用人工智能强大的AI算法,通过关联分析快速发现问题。如果您的系统出现故障,您必须挖掘数百个日志以查看系统环境的变化。这将非常耗时,更不用说快速解决问题了。这是一个使用人工智能算法的智能运维系统,会节省很多时间。

根据服务、错误类型或问题描述字段等常见特征关联或分组数据。或以时间为分类依据,根据这些特征可以进行很多的问题分类。如果在您刚刚进行了系统环境更改是发生了故障,那么你可以很明确的根据系统发生故障的时间去推断出问题在此次更改中,这将很容易进行问题定位及解决。

 001

 

 

1.问题告警与业务数据串联分析

还有个中年问题可能是因为用户的行为所造成的,定位这一部分问题对于大多数计算机系统来说是一个挑战。例如,在线支付过程,业务中有许多集成和相互依赖的部分。

带有 AIOps 的人工智能运维工具可以使用关联分析算法,关联与付款流程相关的数据警报。

这将会有助有运维人员快速定位问题所在。

 

2.告警收敛于业务的关系

对于重复的告警数据规范将极大的提升运维管理效率,如果在告警数据中突然弹出“CPU过载”你可以很快的定位问题,但是在这之后,紧随其后的多项类似的告警,将会分散运维人员的注意力,可能会使关键的告警信息淹没在大量的重复告警数据中,从而降低运维人员的效率,从而对业务稳定性造成威胁

3.告警收敛

告警收敛通过消除过多的数据副本来降低噪音并最大程度地减少事件量。与监控系统会不间断的发送告警信息不同,智能运维体系中的人工智能算法会将重复的告警消息压缩为一个有状态的消息。有些重复数据看似微不足道,尤其是与一些重大的业务组件问题相比,但是大多数问题都发生在一些微不足道的地方,所以智能告警收敛算法的核心在于,不仅仅是将重复的消息收敛起来,还要能准确的筛选出会影响业务的告警信息。

智能运维的智能可观察性可集中数据并使团队更容易理解。当这些系统检测到事件时,支持 AI 的关联和重复数据删除将这种计划外工作的影响降到最低。对 DevOps 从业者和 SRE 团队的下游影响是显着的。这些团队可以花更少的时间去解决问题,而将更多的时间集中在满足不断创新和服务于客户的需求上。