第七讲-流程挖掘(Process Mining)学习日志之α算法存在的问题

第七讲-流程挖掘(Process Mining)学习日志之α算法存在的问题

在现实中,我们往往不知道“真正的”模型是什么样的。事实上,不存在所谓描述一个过程的模型,在应用中可能同时存在多个模型(即同一件事情的不同视图),同时在发现的过程中模型可能 发生了许多变化。


参考:PROCESS MINING:Discovery,Conformance and Enhancement of Business Processes


7.1 基本思想

在这里插入图片描述

图5.17的起点是一个过程模型,例如一个工作流网 N。基于这个模型我们可以运行多个仿真实验并将仿真事件记录在一个事件日志中。假设事件日志关于某些标准是完备的,例如,若在N 中 x 可以紧跟 y, 那么在日志中至少发生一次x 紧跟 y。通过将完备的事件日志作为过程发现算法(如α算法)的输入,我们可以得到一个新的模型。现在的问题是:“发现的模型N’与原始模型N有什么相似之处?它们是否等价?”。等价性可以从不同的角度来观察,例如,希望发现算法能够重构模型布局是不合理的,因为布局信息并没有出现在日志中,并与过程的行为无关。基于同样的原因,希望发现工作流网的 原始库所名称也是不合理的。α算法生成名为p(A,B)的库所,而并不意味着与原始的库所名称匹配。因此,在比较发现的模型N’与原始模型N 时,我们需要将关注点放在行为(而不是布局和语法)上。


7.2 α算法面临的挑战

α算法是最早的能够适当捕捉并发的过程发现算法之一。如今,已经存在能够克服α算法缺点的更好算法,它们有的是α算法的变体,有的则使用完全不同的方法,例如遗传挖掘或者基于区域的综合分析。下一篇文章中,我们将讨论这些不同的方法。在展示这些新的过程发现技术之前,我们先说明主要的挑战。首先讨论表示偏好带来的影响,然后讨论输入事件日志含有噪声或不完备的相关问题。同时会讨论4种质量标准:拟合度、精确度、泛化度和简洁度。最后会再次强调发现的模型仅仅是现实中的一个视图,因此模型有多大的用处很大程度上取决于要解决的问题是什么。

7.2.1 表示偏好

在第六讲中我们将关注点放在生成工作流网的挖掘算法上,也就是说,我们假设可以使用一个工作流网来适当地描述潜在过程。所有的发现技术都需要这样的表示偏好 (representational bias)。举例来说,用于学习决策树的算法对结果树的结构做出了相似的假设,例如,大部分决策树,学习者在树中的每条路径上都只能在一个属性上分裂一次。

在讨论α算法的时候,我们假设要发现的过程是一个合理的工作流网。具体来说,我们假设潜在过程能够被一个工作流网描述,并且这个工作流网的每个变迁具有独一无二的可见标签。在这样的工作流网中,不可能存在两个具有相同标签的变迁(即1(t₁)=|(t₂)) 意味着 (t₁=t₂) 或者发生不可见的变迁 (即不包含无声变迁,对于所有变迁都有 l(t)≠ τ \tau τ) 。这些假设也许看起来无害,但是它们对能够发现的过程模型类型具有显著的影响。下面通过两个例子来展示这一表示偏好的影响。

对于一个类似 L10=[<a,a>55] 的事件日志,也就是说在所有实例中,严格执行了两个a。理论上来说,我们希望发现图5.20中的工作流网。但不幸的是,α算法的表示偏好导致这个过程模型不会被发现。此时不存在一个工作流网能够在不含有重复标签和 τ \tau τ标签的情况下拥有期望的行为,但是α算法却只能发现这样的工作流网(即每个变迁都必须具有独一无二的可见标签)。

在这里插入图片描述
现在让我们考虑事件日志L11=[<a,b,c>20,<a,c>30] 。 图5.21 (a) 很好地描述了潜在的过程:通过执行 τ \tau

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值