当前位置: 主页 > 社会 > 详情
【TKE】 配置事件告警实践

来源腾讯云   2023-02-25 21:13:59


(资料图)

操作场景

对集群中比较关注的事件信息设置告警,以便快速感知该事件发生情况。

操作步骤

事件告警依赖 CLS 日志告警功能,所以需要先开启集群事件存储,参考 开启事件存储。

2. 选择导航栏左侧运维中心>日志管理 > 事件日志,进入“事件检索”页面。通过事件仪表盘检索已有的事件样例,参考 全局检索 。

比如我们要想告警原因为 "NotTriggerScaleUp"(Pod Pending 没有触发节点池扩容事件) 的事件数量告警 ,我们可以在 交互模式下, 添加筛选条件 event.reason为 "NotTriggerScaleUp" 的事件信息。再使用 SQL 语句 统计查到的总条数,点击查询按钮查询相关事件信息(查询时间默认近15分钟,可以根据情况选择查询时间),如下图:

检索查询事件

查询到事件后可以点击 统计图表 查看统计情况(如下图), 可以看到查询的事件总数为 15 个。

切换交互模式为语句模式,将显示查询的语句(留作备用): event.reason:"NotTriggerScaleUp" | select count(*) as errcounts,如下图:

查看查询语句

3. 在 CLS 告警策略 界面设置告警配置。

根据第 2 步生成的查询语句创建告警配置,如下图:

配置告警

触发条件语法参考:触发条件语法。

4. 根据帮助文档配置告警对象相关信息后保存,如下图:

配置告警对象

上述第3、4步配置详情和告警测试请参考 CLS 监控告警文档。