报警策略配置
1 报警策略配置内容
针对苍穹星瀚环境,建议配置如下报警策略(gPaaS6.0.3及以上版本创建的监控环境已自动进行配置):
(1). 对所有主机配置报警,具体如下
CPU使用率大于90%时触发报警
内存使用率大于90%时触发报警
磁盘写延迟大于1s时触发报警
磁盘读延迟大于1s时触发报警
所有分区磁盘最大使用率大于85%时触发报警
CPU 5分钟平均负载大于100时触发报警
状态等于异常时触发报警
(2). 对所有苍穹容器系统配置报警,具体如下
CPU使用率大于90%时触发报警
内存使用率大于90%时触发报警
容器重启次数大于0次时触发报警
(3). 对所有苍穹容器应用配置报警,具体如下(苍穹6.0.1及以上版本支持)
JVM堆内存使用率大于90%时触发报警
JVM OOM次数大于0时触发报警
SQL慢查询(30s-60s)个数大于1触发报警
SQL慢查询(大于60s)个数大于0触发报警
状态等于异常时触发报警
(4). 对Redis配置报警,具体如下
Redis_Cache内存使用率大于80%时触发报警
Redis_Session内存使用率大于80%时触发报警
Redis_Algo内存使用率大于80%时触发报警
Redis_Cache状态等于异常时触发报警
Redis_Session状态等于异常时触发报警
Redis_Algo状态等于异常时触发报警
(5). 对ZooKeeper配置报警,具体如下
状态等于异常时触发报警
(6). 对RabbitMQ配置报警,具体如下
状态等于异常时触发报警
(7). 对PostgreSQL配置报警,具体如下
状态等于异常时触发报警
主从状态同步异常时触发报警
(8). 对MySQL配置报警,具体如下
状态等于异常时触发报警
主从状态同步异常时触发报警
2 报警策略配置步骤
上图报警策略配置内容说明如下:
(1). 策略名称:按规范填写报警策略名称,该名称主要用于报警策略的检索
(2). 监控指标:需要监控的指标
(3). 监控对象:根据选择的监控指标,系统会自动列出可监控的对象。对象分为两大类,分别为主机和容器服务
(4). 报警触发条件:根据实际需要,配置对应的报警条件。
报警触发时长:一般选默认的1m,即:当持续1分钟满足触发条件时,产生报警
报警级别:包括警告、严重、灾难。这个级别的设置会显示在报警事件上,用于标记报警的严重性。一般配置为严重
当一个报警策略需要配置多个触发条件时,建议每个触发条件对应不同的报警级别
只要有任意一个触发条件满足时,就会触发一条报警信息;当多个触发条件同时满足时,只触发报警级别最高的那条报警。
(5). 通知间隔时间:当持续满足触发条件时,间隔多久发送一次报警。默认选3h(小时)
(6). 通知组:选择报警通知的对象 (配置说明)
报警策略配置
本文2024-09-23 01:09:55发表“云苍穹知识”栏目。
本文链接:https://wenku.my7c.com/article/kingdee-cangqiong-144184.html