科学工作流建模与演化溯源统计分析
1. 灵活的科学工作流建模
在科学工作流中,框架、模板和动态嵌入技术发挥着重要作用。它们让工作流设计者能够更轻松地指定容错、可复用和自适应科学工作流所需的控制流任务,同时依然将数据流作为主要的计算模型。
大多数科学工作流系统基于数据流,这与使用基于控制的模型(如 Petri 网)的业务工作流系统不同。在这两个领域中,一个重大挑战是将控制流和数据流无缝集成到单一模型中。框架和模板的灵感来源于分层有限状态机和异构计算模型的嵌套。这种方法还通过支持复杂的数据和控制结构,扩展了自适应工作流建模。
在工作流中,还可以根据提供给工作流的输入数据类型,对参与者(如文件转换和树推理)进行适当的实现。
2. 工作流演化溯源:背景
溯源(也称为审计跟踪、谱系和 pedigree)记录了生成给定数据产品所使用的步骤信息。这些信息对于确定数据质量和作者身份至关重要,也是数据保存、再现、共享和发布所必需的。
工作流设计,特别是对于探索性任务(如创建可视化、挖掘数据集),是一个反复试验的过程。用户需要迭代优化工作流,尝试不同的技术和参数值,同时制定和测试假设。维护这个过程的详细溯源(或历史)有很多好处,它不仅有助于文档记录和结果再现,还支持多种有助于探索的操作,例如直观地返回以前的工作流版本、撤销错误更改、比较不同的工作流,以及提醒导致特定结果的操作。
变化基溯源模型将工作流规范视为一等数据项,通过记录对规范的每次更改来捕获其演化的溯源。当用户修改工作流(如添加模块、更改参数或删除连接)时,溯源机制会像数据库事务日志一样透明地记录每个更改。通过重放从空规范到所需版本的一系列捕获更改,就可以重