Applying Sequence Mining for Outlier Detection in Process Mining
一、文章速览
1.论文信息
题目-作者-时间-出版社-引用
Fani Sani M., van Zelst S.J., van der Aalst W.M.P. (2018) Applying Sequence Mining for Outlier Detection in Process Mining. In: Panetto H., Debruyne C., Proper H., Ardagna C., Roman D., Meersman R. (eds) On the Move to Meaningful Internet Systems. OTM 2018 Conferences. OTM 2018. Lecture Notes in Computer Science, vol 11230. Springer, Cham
2.背景
异常行为通常会导致复杂,难以理解的,有时甚至是不准确的过程挖掘结果。因此,为了减少这些不利影响,在加挖掘中往往采用一个旨在消除异常行为和保持良好行为的预处理步骤。通常,这一步是手工完成的,需要领域知识,而且成本高、时间长。
3.方法
利用序列挖掘技术来进行过程挖掘领域中的异常检测,将含有异常行为的迹过滤。
4.概述
在没有业务知识的情况下,区分噪音和低频行为 是一项具有挑战性的任务。因此,我们认为这是一个独立的研究问题,不在本文中讨论。
在这里,我们认为噪音和不频繁的行为作为异常值。
本文利用序列模式和序列规则来对日志进行预处理,着重于通过应用自动化的事件数据过滤来改进过程发现的结果,不需要进行过多的人工交互。
在业务流程活动之间存在严重的并行性和/或长距依赖的情况下,也可以检测到异常值。
5.局限
-
第一个限制是,当存在循环行为时,所提出的方法不能检测到一些与循环的do部分的活动相关的异常行为。
例如,活动b,c和d构成了do部分,而e是循环的重做部分。 在此过程模型中,筛选方法可能未检测到<a,b,c,d,e,d,b,c,c,f>中的异常行为 <c, c>,<c, d>, and <d, b> 。
-
另一个限制是存在异或行为时有负面影响。
例如,在执行活动a之后,活动c、d和e中的一个活动执行(与活动b并行)。序列过滤方法不能检测已删除的参与异或行为的活动。但是,添加和错误的活动是可检测的,即使存在大量的异或行为。
注意,通过减少高概率序列规则的最小支持度,可以检测到这种异常行为,但它也会导致检测到一些正常行为。
6.未来方向
- 同时使用直接和非直接跟随关系的过滤方法,似乎能够更准确地检测出异常行为。
- 进行更大的实验,以找出在什么情况下一个特定的过滤机制工作得更好。
- 基于给定的事件日志的特征,估计过滤参数。
二、方法描述
1. 相关概念
(1) 序列模式:如<a, b, c>和<e, e>是<a, b, d, a, e, f, c, e>的两个序列模式。
- 序列模式中的所有项不一定都在彼此之后直接发生。但是,必须保持两个序列中活动的序列。所以,如果ρ是σ的间隔子序列,则ρ⊑σ。
- ⊑返回一个二进制值。如果提到的序列模式ρ序列σ中发生一次或多次,返回值为真。
(2)序列规则:
例子:
-
规则的前件和后件元素之间的活动序列并不重要。但是,后件集的所有活动在前件活动之后至少要发生一次。
-
也是一个二进制函数,如果序列规则在该序列中至少出现一次,则返回值为真。
(3)支持度和置信度:
- 支持值越高,意味着事件日志中包含A→c的迹越多。
- 置信度越高,说明在迹中发生了前件的活动之后,后件的活动也更容易出现在该迹中。
注意:只考虑规则的存在,而不考虑频率
2. 具体步骤
-
首先,从事件日志中发现高概率序列规则和低概率序列模式—— odd (or low probable) sequential。
-
找低概率序列模式,只留支持度值低于阈值SupO的序列模式
{OddPatterns} = {PatternsMinSupport=0} − {PatternsMinSupport=SupO }
-
找高概率序列规则,支持度和置信度高于阈值SupH、ConfH
Support(A → C) ≥ SupH and Confidence(A →
C) ≥ ConfH
-
-
其次,根据发现的每个迹的序列规则和模式,搜索它是否包含任何异常行为。
判定依据:
-
出现奇数模式即为异常;
-
注意,如果A–>C是假的,它并不一定会导致迹中的异常值行为。但是,如果一个迹包含一个高概率序列规则(a)的前件,那么它应该完全满足该序列规则(即也有后件),否则,此迹包含异常行为。
-
-
最后,从事件日志中删除带有异常行为的迹,返回不含异常迹的日志。
根据序列模式和序列规则的定义,不需要规则和模式中的活动彼此直接直接执行。 例如,奇数模式(odd pattern)<e,i>表示如果活动e发生,则活动i不应在该轨迹中e之后的任何地方发生,否则我们将其视为异常行为。
以前的过滤方法中未考虑的这种长距离(或间接)跟随关系,有助于检测存在大量并行关系和偶然关系的事件日志中的异常行为。
下载地址: