告警管理使用说明

栏目:云苍穹知识作者:金蝶来源:金蝶云社区发布:2024-09-23浏览:1

告警管理使用说明

告警管理使用说明

1.告警管理介绍

告警管理是用来为苍穹服务的各个指标提供监控和告警服务的功能模块,可以通过苍穹Monitor中可视化的配置界面创建告警策略来定义系统如何检查和监控数据,并在监控数据满足告警策略配置的条件时发送告警通知。对重要监控指标创建告警规则后,便可在第一时间得知指标数据发生异常,迅速处理故障。

告警管理使用流程如图所示:

 


告警管理支持以下功能:

支持对集群指标,JVM指标,中间件指标进行监控告警。

支持动态启用或禁用告警策略。

支持查看历史告警记录。

支持邮箱、短信告警通知方式。

支持自定义扩展实现告警通知方式。

 

适用版本

金蝶云苍穹V5.0.011及以上

 

2. 告警策略管理

2.1 启用告警管理

告警管理提供了统一的开关控制是否启用告警功能,在新增和配置告警策略之前,需要先启用开关。启用告警管理操作步骤如下:

 

a.登录苍穹Monitor系统,在左侧导航栏中选择“系统配置>参数配置”进入参数配置界面。

b.       选择告警开关“ha.monitor.config.enable”记录右边的修改按钮,将值修改为“true”。

2.2 创建告警策略

通过告警策略的创建配置,系统监控到告警策略中的条件满足时,及时通过邮箱及短信通知告警策略配置的联系人通知告警事件。创建告警策略操作步骤如下:

 

a.登录苍穹Monitor系统,在左侧导航栏中选择“告警管理>告警策略”,点击右上角的新增按钮。

b.设置告警策略基本信息:在“告警策略名称”文本框中输入告警规则名称,并根据需要填写规则的描述信息。

说明:告警策略名称需要唯一并且长度必须小于20个字符。

c.设置告警策略的详细信息:

点击指标选择框,再弹出的列表界面选择需要监控的指标。选中指标后设置该指标触发告警的条件以及告警级别。(指标告警条件配置参考“指标说明”章节进行配置)

说明:同一个策略,告警触发规则指标设置为多个时,指标与指标之间的关系为或关系,即满足任意一个指标的告警条件则触发告警。

 

d.设置通知策略:在短信通知和邮件通知中填写需要通知的手机号码和邮件信息,多个通知信息用英文逗号“,”分割。

说明:推荐使用邮件进行告警通知,短信通知默认使用金蝶短信平台,可能会涉及到收费及调用频次限制。

短信通知:系统预置了金蝶短信平台,无需任何配置则可配置发送短信(如需对接到客户自己的短信平台上,则参考“告警通知扩展”章节进行自定义扩展)。

邮件通知:邮件通知生效之前,需要先配置邮件SMTP信息,请参考“邮箱配置”章节进行配置。

2.3 修改,删除告警策略

通过“苍穹Monitor系统>告警管理>告警策略”列表记录右侧的编辑与删除按钮进行告警策略的修改与删除。

2.4 邮件SMTP配置

在告警策略中配置了邮件通知之后,需要先配置邮件的SMTP服务之后,才能正常发送告警邮件。通过苍穹管理中心(MC)新增参数 “ha.watch.EmailConfig”配置邮件SMTP服务,配置示例如下:

Key值:ha.watch.EmailConfig

Value值:MailHost=smtp.qq.com, UseSSL=true, Port=25, Sender=test@qq.com, UserName=test, Password=**********

(注:Password可配置为加密密码(可使用MC>组件维护>加密工具加密)

 

详细操作步骤如下:

a.登录金蝶云苍穹管理中心(MC),左侧菜单栏中选择“组件维护>加密工具”对邮件配置密码进行加密。

b.左侧菜单中选择“集群管理”菜单,进入集群管理界面,选择需要配置的集群,在集群配置信息界面新增配置ha.watch.EmailConfig参数,其中Password配置值则用上一步加密工具加密过后的加密结果进行配置。

2.5 指标说明

告警管理可用指标及指标异常告警等级详细说明如下:

 

分类

指标名称

指标说明

单位

指标异常告警说明

一般级

严重级

灾难级

JVM指标

jvm.oom

jvm OOM次数

1

1

1

jvm.memory.heap.usage

jvm堆内存使用率

%

80

90

95

jvm.memory.non-heap.usage

jvm非堆内存使用率

%

80

90

95

服务指标

jettyserver.http.threadpool.busyThreads

Web容器正使用中的线程

maxThreads x   80%

maxThreads x   90%

maxThreads x   95%

DB指标

sql.execute.mean

sql执行时间均值

毫秒

5000

10000

20000

sql.execute.slow1second

sql慢查询1-5秒计数

100

200

500

sql.execute.slow5second

sql慢查询5-10秒计数

50

100

200

sql.execute.slow10second

sql慢查询10-30秒计数

30

50

100

sql.execute.slow30second

 

sql慢查询30-60秒计数

20

30

50

sql.execute.slow60second

sql慢查询大于60秒计数

10

20

30

说明:

1、ettyserver.http.threadpool.busyThreads指标中maxThreads可在MC配置(JETTY_MAXTHREADS),默认为:200

 

3. 查看告警记录

指标触发告警后,在触发通知事件的同时会详细记录告警信息,包含告警实例名称,告警开始时间,告警次数,告警恢复时间等。通过“苍穹Monitor系统>告警管理>告警记录”菜单查看历史告警记录。

4.   告警通知扩展

4.1 告警短信通知扩展

系统预置了金蝶短信平台用于告警短信通知默认服务商,使用金蝶短信平台会涉及到收费及调用频次限制。若客户想切换为自己的短信平台,则可参考如下步骤进行告警短信通知的扩展实现。

 

a.工程中加入bos-ha工程Jar包依赖。

   Gradle工程dependencies中添加如下依赖:

b.在二开工程中实现ActionSpi接口,实现自己短信发送相关逻辑。

接口只需实现两个方法,其中getType方法固定返回短信类型"Sms",excute方法则需要二开实现自己的短信发送逻辑。

c.在MC中新增配置注入第二步的实现类。

通过苍穹管理中心(MC)新增参数 “ha.watch.actionspi.provider”配置注入自己的实现类。配置示例如下:

Key值:ha.watch.actionspi.provider

Value值:Sms=xx.xx.MySmsService

注意:Value值配置时,实现类需要配置类的全路径。

告警管理使用说明

告警管理使用说明1.告警管理介绍告警管理是用来为苍穹服务的各个指标提供监控和告警服务的功能模块,可以通过苍穹Monitor中可视化的配置界...
点击下载文档
确认删除?
回到顶部
客服QQ
  • 客服QQ点击这里给我发消息