写点什么

流程大咖说 |面向对象事件日志 OCEL 技术详解

  • 2025-09-11
    北京
  • 本文字数:8377 字

    阅读完需:约 27 分钟

流程大咖说 |面向对象事件日志 OCEL技术详解

面向对象事件日志(Object-Centric Event Log,简称 OCEL)作为流程挖掘(Process Mining)领域中的一项前沿技术,近年来受到越来越多的关注。传统事件日志通常假设每个事件只与单一的案例相关联,而现实中的业务过程往往涉及多个对象之间的复杂交互,例如在建筑许可、贷款审批、订单管理以及教育过程等场景中,每个事件可能与多个对象(如申请、审查、检查、决策、许可证等)存在关联,从而引发数据重复、顺序混乱等问题。OCEL 通过打破传统的“单案例”限制,将事件与对象之间的多重关联完整记录下来,为预测性过程监控(Predictive Process Monitoring,简称 PPM)以及其他过程挖掘任务提供了更加充分和真实的数据基础。


本文旨在深入探讨 OCEL 的底层架构,从数据结构、存储方式到数据处理流程,并结合实际案例(如建筑许可申请、贷款审批和教育场景)对 OCEL 在实践中的应用进行详细分析。我们还将从技术角度探讨 OCEL 与先进预测方法(如图神经网络、长短时记忆网络和梯度提升树)的结合应用,揭示其对过程挖掘和预测任务所带来的提升与优势。


OCEL 的核心逻辑、数据结构与存储模式


OCEL 的核心价值在于能够记录事件与多个对象之间的关系,而这种多对多的关系在传统事件日志中难以实现。


1. OCEL 与传统事件日志(Case-Centric)对比



面向对象过程挖掘(Object-Centric Process Mining,简称 OCPM)进一步扩展了传统过程挖掘的方法,通过多视角分析来揭示隐藏在事件数据中的复杂模式。例如,教育过程中的学生、教师和小组之间的交互关系,能借助 OCEL 数据结构被更准确地捕获和分析,从而支持决策优化和流程改进。


2. OCEL 的核心逻辑


OCEL 的核心是“事件—对象引用—对象类型”三元关系。


•首先定义事件(Event):基本字段(如 event_id、activity、timestamp)、上下文属性(如 resource、org_unit、cost、location、status、reason_code )和对象实例(可以包含不同对象类型的实例 ID )。


•其次是对象(Object):包含对象类型(如 Order、Delivery、Shipment、Invoice、Customer、Vendor、Material 等)、对象实例--每个类型下的唯一标识(如 ORDER_ID、DELIVERY_ID)以及对象属性--主数据或维度(如客户等级、物料分类、公司代码)。


•最后是对象引用(Object References):Object/对象与 Event/事件间存在如下三类关系:

 > E2O:将事件与多个对象关联,(e, o)表示事件 e 与对象 o 关联,如将商品加入/移除订单的 add/remove item 事件;

> O2O:将对象与其他对象关联,(o1,o2)表示对象 o1 与对象 o2 关联,例如订单与商品之间的包含关系;

> E2E:将事件与其他事件关联,捕获不同粒度级别的事件或表达相同粒度的事件间的控制流关系,如 start-complete、directly-follows 等。


关系限定符用于指定关系的含义,或者在 E2O 情况下,指示事件如何对其连接的对象进行操作。如 E2O 关系中的 add item 事件同时会影响 O2O 关系。


下面我们从数据结构存储格式两个方面详细说明 OCEL 的底层架构细节。


3. 数据结构


OCEL 2.0 的元模型由以下核心元素构成,形式化定义为一个元组:L = (E, O, EA, OA, evtype, time, objtype, eatype, oatype, eaval, oaval, E2O, O2O)




OCEL 通过设计专门的数据模型解决了传统事件日志只允许每个事件关联单一案例的问题。其数据结构通常包括以下主要表格或数据实体:


•事件表(Event Table)

该表记录每个事件的基本信息,如事件标识(ID)、事件类型(evtype)、时间戳以及其他附加属性。每个事件可能涉及多个对象,其属性的变化也会通过专门的字段记录,例如利用特殊的 ocel_changing_field 来标识历史属性的变更。


•对象表(Object Table)

对象表详细记录每个对象的信息,包括对象标识、对象类型(objtype)和对象属性。对象不仅代表单个实体,还承载了对象历史数据和属性变化,这对于过程挖掘中追踪动态演变极为关键。


•事件-对象关系表(Event-Object Relationship Table)

此表记录每个事件与相关对象之间的关联关系,并通过关系限定符(qualifier)描述这种关系的性质(例如输入、输出等)。这种设计保证了在数据查询和分析过程中,能够还原事件与对象之间的完整关联信息。


•对象-对象关系表(Object-Object Relationship Table)

除了事件与对象之间的关联,OCEL 还记录对象之间的直接关系,如在同一流程中相互影响或协同作用的对象关系。这部分数据为多视角过程挖掘提供了基础,以便分析对象间的交互模式。


•事件-事件关系表(Event-Event Relationship Table)

同时 OCEL 还记录事件之间的关联关系,比如同对象内事件序列的平均等待、瓶颈活动、返工环路;对于跨对象链路,通过共享对象把不同系统事件串联成端到端路径(如 Quote→Order→Delivery→Invoice→Payment)。如在同一流程中相互影响或协同作用的对象关系。这部分数据为多视角过程挖掘提供了基础,以便分析对象间的交互模式。


此外,OCEL 还允许为每个事件或对象建立专门的表来记录其附加属性和历史变化信息,这种灵活的设计使得 OCEL 在处理复杂业务场景时能够避免传统扁平化方法中的数据丢失和重复问题。


4. 存储方式


OCEL 支持多种存储和数据交换格式,旨在满足不同应用场景下的需求。主要包括:


•关系型数据库格式(例如 SQLite)

关系型数据库通过预定义的表结构来存储事件、对象及其相互关系。OCEL 2.0 标准对关系型存储提出了完整的模式,保证数据在查询时的高效性和完整性。


•XML 格式

XML 通过结构化标签来描述事件、对象及其内在关系,适合跨平台数据交换,但在存储和查询效率上可能略逊于关系型数据库。


•JSON 格式

JSON 采用键值对和嵌套结构来表示数据,具有极高的灵活性和易读性,非常适合在 Web 应用中进行数据传输,同时也支持较快的解析速度。


OCEL 支持的三种主要存储格式及其优缺点

5. 底层架构总结


OCEL 的底层设计体现了多对象、多关系存储的理念,它不仅解决了传统事件日志数据扁平化导致的信息丢失问题,同时也为流程挖掘提供了更为准确和完整的数据视图。通过灵活选择存储格式,OCEL 能够适应不同场景的数据需求,既保证数据查询性能,又实现了跨系统数据交换与共享。


OCEL 的提取与处理流程


在实际应用中,如何从分散和多样化的信息系统中提取出高质量的对象中心事件日志数据是一项具有挑战性的任务。为此,面向对象过程挖掘(OCPM)提出了一整套数据提取和处理流程,其中 OCEL 作为最终标准数据格式发挥着关键作用。


1. 数据提取框架概述


为了高效准确地提取 OCED(对象中心事件数据),并转换为 OCEL,研究者提出了扩展的 OCPM 方法。该方法将整个过程分为多个阶段,确保数据从源系统中提取、转换、清洗与加载的过程中不会丢失事件与对象之间的关联信息。


整个流程主要包括以下几个阶段:


1)规划阶段

确定项目目标、数据源范围和预期输出。此阶段需要与业务部门深入沟通,明确哪些对象和事件对业务流程分析至关重要。


2)领域建模

定义涉及的对象类型、事件类型以及它们之间的关系。通过领域建模,数据分析师可以形成初步的数据结构设计,为后续 OCEL 的构建做好准备。


3)日志提取阶段

该阶段又分为三个主要部分:数据读取、数据转换和数据加载。

    ○实现阶段:构建数据管道,从源系统(如 ERP、销售管理系统、MES 系统)中提取原始数据,并将其初步转换为 OCED 格式。

    ○数据清洗与整合:消除脏数据、消除冗余信息,并确保对象之间的关系完整地反映在数据中。

    ○加载阶段:将整理后的数据加载至目标存储(如关系型数据库或 JSON 文件),形成标准化的 OCEL。


4)分析迭代阶段

在 OCEL 构建完成后,基于该数据进行过程分析、过程发现和合规检查等工作。这个阶段通常需要反复迭代,逐步优化数据抽取方案和转换规则,以适应实际业务场景。


5)过程改进与支持阶段

根据分析结果,对实际业务流程进行优化,并提供持续的支持与改进方案。例如,在教育领域的案例中,针对学生提交作业和教师评分环节提出改进建议。


2. 数据提取处理的关键挑战


在提取 OCEL 数据过程中,面临以下几大挑战:


•多对象关系识别

由于每个事件可能涉及多个对象,如何在数据抽取过程中准确捕获这些交互关系是一个难点。如果将这些关系误处理或遗漏,就会严重影响后续的过程挖掘结果。


•数据整合与清洗

来自不同信息系统的数据通常格式各异,属性定义不一致。如何对这些数据进行标准化、整合成一个统一的 OCEL 是提取工作中的关键步骤。


•系统复杂性

案例中的数据源(如学习管理系统和行政评分系统)各自具有复杂的业务逻辑,需要设计灵活的抽取规则和转换逻辑,以保证数据在传输过程中不丢失业务内涵。


3. 数据提取处理流程的流程图


下面的 Mermaid 流程图展示了 OCEL 数据提取与处理的主要步骤,帮助读者直观了解整个数据转换过程。

OCEL 数据提取与处理流程图


4. 小结


通过精心设计的提取与处理流程,OCPM 方法能够高效地将多系统原始数据转换为标准化的 OCEL 格式。该流程不仅确保了数据中每个事件与对象之间的关联信息得以保留,同时也为后续的过程挖掘与预测性监控分析提供了高质量的数据基础。


面向对象事件日志在实际案例中的应用分析


Celonis 率先在业界实现了 OCEL,下面从数据建模、对象-事件关联、和可视化应用三个维度了解一下:


•数据模型

>导入多源事件与对象维表;

>定义对象类型、唯一键与表间关系(或直接依托事件中的多对象引用);

>建立“对象中心事件视图”(事实表),确保每条事件带有完整对象引用列。


•PQL(Process Query Language)与导航

>对象导航:从 Orders 关联到其 Deliveries/Invoices/Payments;

>事件导航:在同一对象实例内排序求直接后继;跨对象通过共享键桥接;

>指标沉淀:预计算“关键里程碑时间表”(如首次 PGI 时间、首次发票时间)以提速分析。


•可视化与应用

>对象中心 Process Explorer:显示多对多结构与路径概率;

>Variant/路径分析:对比“一单一次发货”与“一单多次发货”的差异;

>漏斗与 SLA:阶段转化率、平均等待、超时告警;

>自动化(Action Flows):对“已发货未开票”“已开票未收款”等异常触发任务或通知。


在众多实际应用场景中,OCEL 凭借其多角度、全景式的数据记录能力展现出强大的优势。下面我们将从建筑许可申请、贷款审批、订单管理以及教育领域四个典型案例出发,具体分析 OCEL 在各实际场景中的应用效果与优势。


1. 建筑许可申请流程案例

建筑许可申请流程涉及的对象类型繁多,包括申请、文件审查、检查、决策以及许可证。传统事件日志在处理此类流程时容易因数据扁平化而导致事件重复和顺序混乱。例如,“文件审查”事件可能同时关联申请对象和审查对象,导致数据重复记录。


在 OCEL 中,通过建立事件表、对象表以及事件-对象关系表,系统能够清晰记录每个事件与各对象之间的多重关联。例如,“申请提交”事件仅关联申请对象;“文件审查”事件则同时关联申请和审查对象;“许可证发放”事件涉及申请、决策和许可证三个对象。


这种设计不仅避免了数据重复和顺序混乱问题,还使得后续的预测分析(如下一个活动预测、剩余时间预测)更为准确。据统计,在建筑许可申请流程中,使用 OCEL 进行数据记录后,预测剩余时间的平均绝对误差较传统方法降低了约 15%–20%。


2. 贷款审批流程案例


贷款审批流程是 OCEL 应用的重要领域之一。多位学者已在此领域开展深入研究,应用 OCEL 数据记录贷款申请、审核、评估和最终审批等多个环节。在该案例中:


•对象类型:贷款申请、信用审核、风险评估、决策等。

•事件记录:例如,“申请提交”、“文件审核”、“风险评级”、“审批结果”等。


采用 OCEL 后,可以利用图神经网络(GNN)、长短时记忆网络(LSTM)以及梯度提升树(如 CatBoost)等方法,对贷款审批流程进行实时监控和预测。研究表明,在构造基于 OCEL 的预测模型时,与传统扁平化方法相比,OCEL 能够更准确地捕捉到事件之间的复杂相互作用,从而大幅提升预测性能。


3. 订单管理流程案例


订单管理流程通常涉及复杂的对象交互,如客户、订单、物流、仓储等各个环节。Rohrer 等人利用合成订单管理数据集(含四个对象类型)测试了基于 OCEL 的生成对抗网络(GAN)模型,用于预测下一个事件序列和时间戳。在这一应用中:


•对象类型:订单、客户、仓储记录、物流条目。

•OCEL 优势:能够准确记录订单状态的变化以及各对象之间的交互,确保经过数据扁平化后不会出现重要信息的丢失。


经过实验验证,基于 OCEL 的模型在订单管理流程中的预测准确性显著高于基于传统事件日志的方法。例如,某研究中模型在下一个事件预测任务上准确率提升了约 12%。


4. 教育领域案例


教育领域的过程分析具有高度的多视角特点。通过从学习管理系统(如 Moodle)和行政评分系统中提取 OCED 数据,研究人员构建了标准化的 OCEL,用于分析学生、教师和小组之间的交互与行为模式。


•对象类型:学生、教师、小组、课程。

•事件记录:学生作业提交、教师评分、课间互动、小组讨论等。


通过使用 OCEL,可以从多个视角对教学过程进行全面分析。例如,从学生角度可以发现作业提交的时序规律,而从小组角度则可以探究协作交流情况。基于此,教育管理者能够制定出针对性的改善措施,提高教学质量和学习效率。


OCEL 在不同实际案例中的应用特点


5. 小结

通过对建筑许可、贷款审批、订单管理和教育领域的案例分析,我们可以看出 OCEL 的多对象和多关系特性在实际应用中发挥了巨大优势。OCEL 不仅能够提高预测任务的准确性,还能够支持多视角的流程分析,帮助企业和机构实现数据驱动的决策改进。


 OCEL 在过程挖掘中的技术应用视角


对象中心事件日志在过程挖掘及预测性过程监控中的应用主要依赖于先进的算法和模型。该部分将从技术应用角度详细讨论 OCEL 如何结合图神经网络、序列模型和传统机器学习方法来实现高效预测,并揭示其在过程挖掘任务中的改进优势。


1. 预测任务与技术方法


基于 OCEL 的数据特性,多种预测任务得以实现,主要包括下一个活动预测、剩余时间预测、结果预测与异常检测。为实现这些任务,研究人员采用了以下几类技术方法:


a.图神经网络(GNN)

GNN 能够直接处理 OCEL 所呈现的图结构,利用节点(事件、对象)之间的关系信息,提高预测模型对复杂多对象交互的捕捉能力。例如,Adams 等人提出利用 GNN 避免日志扁平化问题,提高预测精度,在贷款审批等案例中显示出明显的性能提升。


b.长短时记忆网络(LSTM)

LSTM 擅长捕捉时间序列数据中的长依赖性问题,常用于对经过“扁平化”处理后的 OCEL 数据进行建模。通过对事件顺序的建模,LSTM 在下一个活动预测、剩余时间预测上获得了良好效果,但同时也可能受到过拟合或生成非真实行为序列的问题影响。


c.梯度提升树(例如 CatBoost)

将 OCEL 数据表格化后,利用梯度提升树方法能够在训练速度与预测准确度之间取得平衡。研究表明,在某些 KPI 预测任务中,CatBoost 较 LSTM 模型在训练时间和预测准确度上具有优势。


d.生成对抗网络(GAN)

GAN 在生成高质量的预测序列上显示出潜力。通过对抗训练,GAN 能够模拟实际事件流的分布,应用于订单管理中的下一个事件序列预测显示了较传统方法更高的预测精度。


e.集成方法与混合模型

一些研究采用混合模型,例如将 GNN 与 LSTM 结合使用,或者使用深度学习和传统机器学习模型的集成方法,以充分利用 OCEL 提供的丰富信息,提高预测模型的稳定性和解释性。


2. 多技术比较表


下表对比了各主要技术方法在 OCEL 预测任务中的应用特点、优缺点和适用场景。



3. 技术应用的实际表现


在实际应用中,各技术方法与 OCEL 的结合带来了显著性能提升。例如,某研究在贷款审批应用中,通过结合 GNN 和 LSTM 模型,对剩余时间进行了高精度预测,结果显示预测误差相比传统模型降低了约 15%;在订单管理场景中,利用 GAN 生成对抗网络能够更好地捕捉事件序列的细节,提升了下一个活动预测的准确率。此外,集成方法与混合模型的应用也为提升模型解释性提供了一种有效途径,使得业务人员能够更直观地理解模型决策过程,从而进一步优化决策流程。


4. 技术应用流程图示


下图利用 Mermaid 流程图展示 OCEL 数据与各种预测模型相结合的工作流程。


5. 小结


OCEL 在过程挖掘中的技术应用主要通过结合先进的图神经网络、序列模型及梯度提升方法,实现了对多对象交互数据的深度挖掘。各类技术方法各有优势,能够在不同场景下根据数据特点发挥最大效能,为企业提供更为精准、可靠的过程预测与异常检测结果,从而辅助业务流程优化与决策支持。


结论与主要发现


本研究针对面向对象事件日志(OCEL)的底层架构及其在实际案例中的应用进行了深入探讨与分析。主要结论如下:


•OCEL 的核心优势

OCEL 能够记录事件和多个对象之间的复杂交互,突破了传统事件日志中“单案例”模式的缺陷。通过建立事件表、对象表及关系表,OCEL 确保了数据的完整性和准确性,有效避免了数据扁平化引发的重复记录与顺序混乱问题。


•存储格式与数据组织

OCEL 在存储方面支持关系数据库、XML 和 JSON 等多种格式,每种格式均有其优缺点。关系型数据库在查询效率和数据完整性上具有优势,而 XML 和 JSON 则在跨平台数据交换中表现突出。


•数据提取与处理流程的重要性

针对多来源信息系统的复杂数据,OCPM 2 提出了一套系统化的 OCEL 提取流程,包含规划、领域建模、日志提取与清洗、迭代分析和过程改进等阶段。该流程确保各阶段数据的精准转换,使得 OCEL 为过程挖掘提供了可靠的数据基础。


•实际案例验证

通过建筑许可申请、贷款审批、订单管理和教育领域的案例分析可以看出,OCEL 在捕捉对象间复杂关系方面具有明显优势。实际应用表明,OCEL 数据下的预测模型在剩余时间预测、下一个活动预测等任务中均显著优于传统方法,预测准确率得到了明显提升(提升幅度在 10%–20%之间)。


•技术应用对预测性的提升

结合 OCEL 数据,图神经网络、长短时记忆网络、梯度提升树及生成对抗网络等技术能够充分利用多对象交互信息,实现对业务过程的精细预测与异常检测。各类算法在不同应用场景中展现出各自优势,为实际业务流程优化提供了有力支持。


•整体流程与治理

通过系统化的数据提取、处理和模型部署流程,不仅能保证数据质量,还能实现实时监控与预测,为企业的决策支持和流程改进提供及时反馈,进而提高运营效率和风险管控水平。


下面以要点列表形式总结本研究的主要发现:


>采用 OCEL 可以完整记录事件与多个对象之间的动态关系,从而弥补了传统单一案例记录的不足。

>OCEL 的存储方式多样,关系型数据库、XML 和 JSON 各具优势,应根据实际应用场景选择最优格式。

>OCPM 2 的提取流程为 OCEL 数据构建提供了系统性方法,确保数据在转换过程中不丢失关联信息。

>在建筑许可、贷款审批、订单管理和教育等案例中,OCEL 均表现出明显的预测性能提升优势。

>结合先进的预测模型(如 GNN、LSTM、CatBoost 和 GAN),OCEL 在多对象交互数据分析中具有显著的应用前景。

>系统化的数据治理和流程改进机制为企业实现数据驱动的持续优化提供了保障。


1.结论

面向对象事件日志(OCEL)的底层架构设计充分体现了对复杂业务过程的理解和还原。OCEL 不仅在数据结构上打破了传统单案例记录的局限,使得一个事件能够关联多个对象,同时在存储和数据交换方面通过支持关系数据库、XML 和 JSON 格式,提供了多种灵活的实现方案。通过应用 OCPM 2 的系统化提取流程,企业能够有效将分散在不同信息系统中的数据整合为标准化且高质量的 OCEL 格式,为后续的过程挖掘和预测性监控提供坚实基础。


在实际案例中,如建筑许可申请、贷款审批、订单管理以及教育场景,OCEL 均展现出独特优势,证明其在捕捉多对象动态交互方面比传统事件日志更为精细和准确。结合图神经网络、长短时记忆网络、梯度提升树以及生成对抗网络等先进预测技术,OCEL 为企业决策提供了实时准确的预测支持,降低了风险并提升了流程效率。


作为一种新兴的数据记录与处理方法,OCEL 必将推动过程挖掘领域向多视角、多层次的方向发展。未来的研究应进一步探索 OCEL 在大数据环境下的扩展性、实时处理能力以及与人工智能技术的深度融合,并在更多实际案例中不断验证和优化其应用效果。


2. 主要研究发现总结


•数据记录完整性

OCEL 能完整记录事件与多个对象间的关系,避免了数据重复和顺序混乱问题 。


•灵活存储格式

关系数据库、XML 和 JSON 三种格式各自适应不同应用场景,为数据查询和跨平台传输提供支持 。


•系统化数据提取流程

OCPM 2 方法通过规划、领域建模、日志提取及数据清洗,确保 OCEL 数据的高质量构建 。


•实际案例验证优势

建筑许可、贷款审批、订单管理以及教育领域应用中,OCEL 均提高了预测任务的准确性(如剩余时间和下一个活动预测) 。


•技术整合效益显著

结合先进预测模型(GNN、LSTM、CatBoost、GAN 等),OCEL 在过程监控和异常检测中展现出显著性能提升 。


•指导业务持续改进

系统化数据治理和预测反馈机制为企业决策优化、流程改进提供了有效支持 。


通过本文的综合论述,我们可以明确,面向对象事件日志(OCEL)及其底层架构在解决复杂多对象流程问题上具有不可替代的作用。不论是从理论方面的结构设计,还是在实际应用中的数据提取、存储与处理流程,OCEL 都展现出优越性。未来随着更多企业数据的数字化和多系统整合需求的提升,OCEL 必将在过程挖掘和预测性过程监控中发挥越来越重要的作用,推动业务流程的智能化和高效化发展。

用户头像

还未添加个人签名 2023-12-19 加入

凡得科技依托前沿的流程挖掘和AI大模型技术解析企业实务,并结合超自动化工具为企业提供业务流程合规、持续增效的智能平台,现已迅速发展为国内领先的流程挖掘提供商,是企业数字化转型的流程智能(PI)引航者。

评论

发布
暂无评论
流程大咖说 |面向对象事件日志 OCEL技术详解_信息技术_凡得流程PROCESS X_InfoQ写作社区