AIOps 领域正在利用 AI 和 ML 的力量改变 IT 格局。尽管面临标签数据有限的挑战,但监督模型显示出了希望,强调了利用标签进行训练的重要性,尤其是在深度学习环境中。这项研究通过引入日志异常分类法并探索自动数据标记以减轻标记挑战来增强该领域 ...
系统复杂性的增长增加了对专用于不同日志分析任务(例如基于日志的异常检测(LAD))的自动化技术的需求。后者在文献中得到了广泛的讨论,主要是通过不同的深度学习技术。然而,对深度学习技术的关注导致对传统机器学习 (ML) 技术的关注较少,传统机器学习 (ML) 技术在许多情况下可能表现良好,具体取决于上下文和使用的数据集 ...
及时、准确地检测系统异常对于保证软件系统的可靠性至关重要。与利用所有可用运行时信息的手动工作不同,现有方法通常仅利用单一类型的监控数据(通常是日志或指标),或者无法有效利用不同类型数据之间的联合信息。因此,出现了许多错误的预测 ...
日志异常检测是 IT 运营人工智能 (AIOps) 领域的关键组成部分。考虑到不同域的日志数据,在实际工业场景中,针对未知域重新训练整个网络效率很低,尤其是对于资源匮乏的域。然而,之前的深度模型仅仅关注于提取同一域内日志序列的语义,导致对多域日志的泛化能力较差 ...
软件密集型系统会生成用于故障排除目的的日志。最近,人们提出了许多深度学习模型来根据日志数据自动检测系统异常。这些模型通常声称检测精度非常高 ...
系统日志是软件系统维护中最重要的一些信息,近年来软件系统变得越来越大、越来越复杂。基于日志的异常检测的目标是通过分析短时间内生成的大量日志来自动检测系统异常,这在现实世界中是一个严峻的挑战。以前的研究使用日志解析器从非结构化日志数据中提取模板,并根据模板出现的模式检测异常 ...
随着软件系统的复杂性和范围不断增加,其可靠性至关重要。对系统执行期间记录的日志数据进行分析可以使工程师在运行时自动预测故障。已经提出了多种机器学习 (ML) 技术,包括传统的 ML 和深度学习 (DL) 来自动执行此类任务 ...
Transformer 作为自然语言处理(NLP)领域最先进的神经网络模型之一,在异常检测领域展现出多样化的应用。为了激发基于 Transformer 的异常检测的研究,这篇综述为异常检测的概念提供了全新的视角。我们探讨了当前异常检测的挑战,并详细介绍了 Transformer 及其变体在异常检测任务中的工作原理 ...
IT 运营人工智能 (AIOps) 旨在将人工智能的力量与 IT 运营流程(尤其是云基础设施中)生成的大数据相结合,以提供可操作的见解,其主要目标是最大限度地提高可用性。有各种各样的问题需要解决,并且有多种用例,可以利用人工智能功能来提高运营效率。在这里,我们回顾了 AIOps 的愿景、趋势、挑战和机遇,特别关注底层的人工智能技术 ...
软件系统通常会在系统日志中记录重要的运行时信息,以用于故障排除。已有许多研究使用日志数据构建机器学习模型来检测系统异常。通过我们的实证研究,我们发现现有的基于日志的异常检测方法受到日志解析错误的显着影响,这些错误是由 1)OOV(词汇外)单词和 2)语义误解引起的 ...