参考链接1:
ChatGPT一周年,你充分利用了吗?Zabbix+ChatGPT,轻松化解告警!
https://mp.weixin.qq.com/s/KaKE7WnNp4Kf0s5xFhVWyw
参考链接2:
AIOPS:Zabbix结合讯飞星火做自动化告警+邮件通知并基于人工智能提供解决方案
https://blog.csdn.net/xingdiango/article/details/136570674?spm=1001.2014.3001.5501
老板让我们调研一个智能运维的产品,我们找了结合Zabbix运维方向的。
Zabbix微信公众号上的文章(参考链接1)要结合一个Node.js云托管服务AirCode,目前AirCode无法登陆。找了好几个类似的,注册好了无法登陆。这个方案暂时
置。
参照参考链接2的文章,找了第三方下载服务(可以私信我免费获取)看了一下,按照他的教程,实现起来有困难。
1、邮件发送脚本嵌套了一个调用AI的脚本,这个AI脚本获取到Zabbix告警信息主题后,根据不同模型,在知识库里找一个对应的运维建议,然后这个邮件脚本再把
警信息和AI对于这条告警的运维建议拼接之后调用第三方(例子中是QQ邮箱)邮箱的API,把邮件发送出来。
这么一套流程下来,50几秒的时间,这个时间大于Zabbix配置文件中的TimeOut(超时)的时间,会引起发送失败。
解决办法是2个Python做异步操作(这个笔者也不太会)
2、今天和团队和老板讨论下来,老板认为这种每条告警都要让AI出运维建议的东西不是最佳的,里面也有很多”杂音”。比如CPU负载过高的告警,就有很多种原因,
然管理员可以到Zabbix管理页面把告警信息关闭,但是如果告警很多怎么办?
所以让AI给建议不是很好的办法。下面的PPT是老板想要的结果。一种智能化的预警方式,在Zabbix 6.0的机器学习特性,基于基线告警的方式也可以达到类似效果。
与Zabbix 官方的机器学习类似,两者目标一样,实现技术有些区别。
然后根据监控的指标,有一套分析系统,对于一个业务创景对于指标的异常做出分析。