1、合格前言在所有的景何互联网企业中 ,告警经常性的养成误告,都是合格让技术人员最头疼的问题之一。试想一下,景何在凌晨两三点时 ,养成你收到了来自告警平台的合格电话告警,于是景何你揉了揉惺忪的双眼,短暂的养成回味了下刚才的源码下载美梦 ,下床打开电脑,合格开始排查问题 ,景何却发现这是养成一个误告 ,线上业务都是合格在有序的运行当中,于是景何你关上电脑,重新上床睡觉,养成但此时你已睡意全无,在床上辗转反侧一个小时才睡着,于是乎,第二天同事看到了一脸沧桑的高防服务器你。这种误告一次两次还能接受,但如果是每隔一天或者是每晚都会触发呢? 因此在互联网行业中 ,频繁的误告通常会遇见如下几个问题 : 单位时间内有效信息获取率变低,技术人员很难从频繁的误告中得到真正有问题的告警; 真正的问题发生时 ,犹如《狼来了》一样,认为都是误告 ,大大加长了问题的发现时间; 降低技术人员的香港云服务器工作效率 ,每天都沉浸在对于各种告警的处理当中 ,降低人员产出; 2 、治理在对于SLA告警的摸索阶段 ,团队就已经预估到后面可能面临着大量噪音的骚扰,因此组建起一个告警测试群,用于针对性的调优;团队为了测试线上告警误告水位,测试性地将SLA场景告警规则进行接入 。果不其然,上个厕所回来,群里已经积攒上百条告警了,根本无法提取出有效的建站模板告警 ,其原因就是我们的告警规则配置都是相对单一的 ,全天候就一条规则 ,如:
为了在告警正式上线后,大家晚上能有一个如婴儿般的睡眠,我们自然而然的就启动了对于噪音的治理工作。而告警噪音的治理最重要的就是模板下载对于利弊的权衡,如果阈值设置过高 ,可能线上问题无法发现;如果阈值过低 ,又会导致噪音频发 ,所以对于阈值的调整里边有很大的学问 。
区分业务场景 。我们创新性地将场景分为平稳型、波浪型、突发型,它们的定义如下: 平稳型:日常流量波动在30%以内 ,流量波动小; 波浪型:日常流量波动在30%以外 ,流量波动较大; 突发型:日常流量波动在30%以内,亿华云但在遇见某些突发情况下 ,如重大活动或者时间 ,波动会超过30%; 针对不同类型的场景,我们也拥有不同的告警配置方案,比如平稳型 ,那么就可以评估一下该场景的波动范围,在其正常的波动的范围内,进行设置阈值 ,比如大部分时间我们的取消订单 ,相比于前七天的平均值,波动在30%以内 ,如下:
那么我们经过两三天的观测 ,我们就可以将告警阈值设置在30%,于是告警的设置就会如下:
上升告警也是同理 ,将阈值设置到30%。 那么针对于波浪形告警,我们的阈值范围可能就会设置的大一点 ,比如到50% ,并且设置与昨日同比等多种规则来限制噪音,例如 :
这样我们配置的规则就会相对复杂,利用昨日以及基线的量来进行综合判断。
在我们告警都上了之后 ,发现白天的噪音相对有了一定的改善,但夜间由于流量波动大 ,导致经常性流量波动比能大于30%,进而触发告警,如下图所示:
如果在这个时候 ,我们为了适应夜间的大波动,而将30%的阈值拉长 ,修改到50%甚至80%,这样的话确实在一定程度上降低了噪音的产生;但在另一方面,我们的告警发现率可能会大大降低 。假如出现线上故障的时候,流量波动下小于我们设置的阈值范围,那么整个配置都没有意义。在这个时候,我们就开始构思区分白天和夜间 ,跑两套规则 ,保证噪音相对较低的同时 ,也能反映出线上的问题,于是取消订单的规则就变成了如下所示 :
与此同时 ,我们也发现,线上流量并不稳定,可能这段时间低一点 ,过段时间来个大促,流量就上升的厉害,导致告警频繁的触发,这个时候技术人员又会面临大量的告警骚扰 ,而很难从中发现真正有问题的告警 。 10月1号大盘数据
告警触发数据
在此基础上 ,整个团队集思广益 ,讨论如何破局 。因此就有了如下的解决方案,既然线上流量是实时波动的 ,容易受各种事件影响,那么基线为何一定要简单粗暴的只取前七天的一个平均值呢 ?为何我们不能在此基础上,让基线也可以动态调整 ,并且尽可能匹配线上流量呢?
如上图所示 ,当我们实时流量与线上真实流量偏差较大的时候,我们可能让基线尽可能的靠近线上实时流量,从而更好的评估线上流量水平,不至于让我们的告警失灵,产生过多的噪音;针对取消订单场景,我们也做了如下调整 : 调整前(红色部分表示波动超过30%)
调整后(红色部分表示波动超过30%)
从大盘上可以看到,明显经过调整后,大部分时候的波动能够保持在30%内,大大减少了噪音的产生。 C端告警数据
B端告警数据
整个团队在现有基础成果上 ,为了减小人员的投入以及负担 ,开始探索能否有一种手段,可以让大家不为了应对线上水位变化 ,而频繁调整SLA场景基线呢? 答案就是智能基线,智能基线它能根据过往的数据 ,智能的推测出流量的曲线图 ,并评估出流量的最高水位(上限)以及最低水位(下限),在保证告警噪音相对较小的情况下 ,帮助我们更便捷以及灵敏的发现线上问题 ,并且保鲜周期也能进一步拉长 ,配置规则也进一步简单化 ,便捷化。 时间段 告警等级 平稳性 波浪形 突发型 白天 P0 任意条件: XX总量最近30s求和与智能基线值环比下跌XX% XX总量最近30s求和与智能基线值环比上升XX% 所有条件 : XX总量最近30s求和与预测上线比高于XX XX总量最近30s求和与智能基线值环比上升XX% P1 任意条件: XX总量最近30s求和与智能基线值环比下跌XX%&持续XX个点位 XX总量最近30s求和与智能基线值环比上升XX%&持续XX个点位 任意条件: XX总量最近30s求和与预测上线比高于XX&持续XX个点位 XX总量最近30s求和与预测下线比低于XX&持续XX个点位 任意条件: XX总量最近30s求和与预测上线比高于XX&持续XX个点位 XX总量最近30s求和与预测下线比低于XX&持续XX个点位 P2 夜间 P0 所有条件: XX总量最近30s求和与预测上线比高于XX&XX总量最近30s求和与智能基线值环比上升XX% XX总量最近30s求和与预测下线比低于XX&XX总量最近30s求和与智能基线值环比下跌XX% 所有条件 : XX总量最近30s求和与预测上线比高于XX XX总量最近30s求和与智能基线值环比上升XX% P1 所有条件 : XX总量最近30s求和与预测上线比高于XX&XX总量最近30s求和与智能基线值环比上升XX% XX总量最近30s求和与预测下线比低于XX&XX总量最近30s求和与智能基线值环比下跌XX% 任意条件 : XX总量最近30s求和与预测上线比高于XX&持续XX个点位 XX总量最近30s求和与预测下线比低于XX&持续XX个点位 任意条件: XX总量最近30s求和与预测上线比高于XX&持续XX个点位 XX总量最近30s求和与预测下线比低于XX&持续XX个点位 P2 一些比较特殊的场景可能会有些差别,但绝大多数场景都可以按此进行配置 ,还是以取消订单为例 ,智能基线大盘如下:
从图上我们可以看出此场景的波动比例基本在上下限控制以内,而对应的一般基线如下 :
3 、总结从刚开始的对于噪音治理的探索 ,到现在极低噪音的治理成果,这是整个团队的努力造就的 。从分场景 ,分时间段,到根据流量动态调整基线,再到现在的智能基线,眼看着它在越变越优秀,这是让我们稳定生产人打心底感到自豪的 。也相信也不久的将来 ,我们的NOC-SLA告警能够报出更多的线上问题的同时,也能产生更少的噪音 。 |
小米Note2(小米Note2在市场上受到广泛关注,销量持续飙升)酷派8298A01(一款令人惊艳的智能手机,助力你潮流尽显个性)红米Note4在知乎上的评价如何?(通过知乎用户的真实评价了解红米Note4的性能、使用体验及优缺点)使用最新版U盘装Win7系统教程(轻松安装最新版Win7系统的详细步骤)以讯景R7265显卡的性能和特点详解(高性价比的显卡选择,探究以讯景R7265的强大性能与独特特点)电脑连接宽带教程-一步步教你如何连接宽带网络(简单易懂的连接宽带教程,助您快速上网畅享互联网世界)红米Note恢复出厂设置密码是什么开博尔Q1(探索开博尔Q1的性能、安全和可靠性,让你爱上电动出行)华硕BIOS恢复出厂设置图解(详解华硕BIOS恢复出厂设置步骤,让您轻松搞定电脑故障)探索Nowallprime的性(无墙壁体验的未来——Nowallprime的突破性创新)香港物理机源码库亿华云b2b信息平台企业服务器网站建设云服务器