云原生技术中微服务架构的复杂性不断增加,对维护系统稳定性和效率提出了重大挑战。为了进行根本原因分析 (RCA) 和解决警报事件,我们提出了一个开创性的框架,即多代理区块链启发的微服务架构根本原因分析协作 (mABC),以彻底改变 IT 运营人工智能 (AIOps)领域,其中基于强大的大语言模型(LLM)的多个代理执行区块链启发的投票,以按照代理工作流提供的处理任务和查询的标准化流程达成最终协议。具体来说,来自代理工作流程的七个专业代理,每个代理都根据其专业知识和在去中心化链中协作的 LLM 的内在软件知识,为根本原因分析提供了宝贵的见解 ...
时间序列异常检测 (TSAD) 通过识别偏离标准趋势的非典型模式,从而维护系统完整性并实现及时响应措施,在各个行业中发挥着至关重要的作用。传统的 TSAD 模型通常依赖于深度学习,需要大量的训练数据,并且像黑匣子一样运行,缺乏对检测到的异常的可解释性。为了应对这些挑战,我们提出了 LLMAD,这是一种新颖的 TSAD 方法,它采用大型语言模型 (LLM) 来提供准确且可解释的 TSAD 结果 ...
确保云服务的可靠性和可用性需要对云事件进行有效的根本原因分析 (RCA)。传统的 RCA 方法依赖于对日志和跟踪等数据源进行手动调查,对于待命工程师来说通常很费力、容易出错且具有挑战性。在本文中,我们介绍了 RCACopilot,这是一种创新的待命系统,由大型语言模型支持,用于自动化云事件 RCA ...