监控告警的最佳实践
- 2024-07-26 21:09:00
- 丁国栋
- 原创 165
这是我在谈到监控告警之时首先想到的。日本有个经营哲学人物叫稻盛和夫,我对其不是很了解,只是有些耳闻,因为他的名字经常在我们团队中提到。稻盛和夫有句话叫“生而为人,何为正确?”。对于这个问题可以套用到其他地方,比如经营人生什么是正确,经营企业什么是正确等。
监控告警系统对于我们来说是非常重要的,监控系统收集各种系统和数据,进行分析和预测,随时发现异常情况并及时报警,快速把问题信息传达给相关负责人,协调应急响应,应对各种突发情况。类似军营中的哨兵,军事上的指挥中心,是运维人最重要的伙伴。
监控系统应该满足于以下原则:
- 覆盖全面,无遗漏不重复。必须完整地监控到所有需要监控的对象上。
- 告警及时,支持多种告警方式,能根据报警级别、标签等条件用不同的方式发送给不同的通知接收人。
- 完整记录监控指标数据和提供便捷的展示、查询等功能。
我们在维护监控系统时,应该重点放到问题的预防上,而不是被动的响应,因为被动响应总是无法及时的发现问题,问题被暴露到客户、伙伴和领导,造成严重和不可预测的后果。
- 监控要全面,要细节,没有遗漏,足够细致;
- 监控要分级,不同的事件设置不同的级别,便于快速识别事件的严重程度;
- 事件升级机制,例如x分钟内未处理做事件升级处理,通知到更多的人和更高层次的人;
- 避免告警泛滥,以免造成接收人麻木无视告警;
- 监控系统本身的面板上的支持的告警,比如弹窗、变色、声音等;
- 发送邮件
- 发送短信
- 发送到配置的webhook
- 发送语音、电话
一些要求
- 有告警要及时处理,避免问题扩大;
- 关注指标的发展趋势,骤增骤减或者有较大波动都可能不正常,需要关注;
- 关注数据的同比和环比,对较大波动分析原因;
- 监控告警系统有很多,例如Zabbix、Prometheus、Uptime Kuma等,选择哪一个既取决于你对它的熟悉程度也得考虑它是否能比较容易地解决问题;
- 监控告警系统并不是只能选择一个,工具就应该做它最擅长的事情,zabbix更适合常规监控、Prometheus监控容器更合适,Uptime Kuma适合于监控网站,它们配合使用更强大;
发表评论