本篇论文来自ICLR2025 Soptlight文章,文章提出了一个新基准套件-CausalRivers,是目前最大的真实世界时间序列因果发现基准。
顶会技术基本认可度都高,推荐阅读,全部77篇ICLR2025前沿时序合集小时已经整理好了,关注工🀄昊“时序大模型”发送“资料”扫码回复“ICLR2025时序合集”即可自取~其他顶会时序合集也可以回复相关顶会名称自取哈~
文章信息
论文名称:CausalRivers - Scaling up benchmarking of causal discovery for real-world time-series
论文作者:Gideon Stein, Maha Shadaydeh, Jan Blunk, Niklas Penzel, Joachim Denzler
研究背景
因果发现虽在理论上取得显著进展,但缺乏真实世界的评估,现有研究多依赖合成数据或稀疏的真实案例,且依赖强理论假设(如因果充分性、线性性、无隐藏混淆因素等)。 真实世界因果结构复杂,导致实践者难以选择合适的因果发现策略。 而现有基准数据集存在缺陷,如时间序列数据少、真实世界数据节点有限,难以支撑鲁棒的方法评估。
因此作者提出一个新的基准套件-CausalRivers,以应付上述难题。
模型框架
CausalRivers 基准套件主要由三个部分组成:
数据集详情:包含德国东部(666 个测量站)和巴伐利亚州(494 个测量站)的河流流量数据,时间跨度为 2019 - 2023 年,时间分辨率 15 分钟;还包括易北河洪水事件数据,以体现分布偏移。
因果真值图:基于多源信息(如维基百科爬取内容、遥感数据等)构建了德国东部和巴伐利亚两个因果真值图,共含超 1000 个节点。支持采样生成数千个子图,可模拟多种场景,如单汇点、根因、隐藏混淆等。
附加工具与资源:提供子图采样工具(可按节点数、地理距离等筛选)、气候条件评估工具(结合德国气象局数据)、预处理工具、数据加载器、三个朴素基线策略(交叉相关法 CC、反向物理法 RP 及其组合 Combo)以及相关教程。
实验数据
设置了三个不同的实验来检测效果:
(实验一)不同图结构下的方法评估:
-
测试了 VAR(线性 Granger 因果)、Varlingam、Dynotears 等经典方法,以及 CDMI、CP 等深度学习方法。
-
结果显示:简单基线(如 RP)性能接近部分复杂方法;线性方法(VAR)表现稳健;深度学习方法未体现显著优势。
(实验二)时间序列子采样影响:
-
对比完整时间序列、无雨期、洪水期数据的方法性能,发现子序列选择对结果影响显著,且依赖具体方法(如 Dynotears 在无雨期表现差)。
(实验三)领域自适应探索:
-
通过在巴伐利亚数据上微调因果预训练模型(CP),其在德国东部数据集上的性能提升,证明领域自适应对因果发现的有效性。
小小总结
CausalRivers 是目前最大的真实世界时间序列因果发现基准,为方法评估提供了标准化环境。 实验揭示现有方法在真实场景中的局限性,强调需加强鲁棒性研究。 CausalRivers数据集有望推动因果发现及相关领域的发展。
通过提供大规模、高复杂度的真实数据,CausalRivers 填补了因果发现领域缺乏实用基准的空白,为基准驱动的方法创新奠定了基础。
全部77篇ICLR2025前沿时序技术小时都整理好了~欢迎关注工🀄昊“时序大模型”发送“资料”扫码回复“ICLR2025时序合集”自取~其他顶会前沿时序合集也可以回复对应会议名自取哈(AAAI25,ICML25,ICDE25等)
关注小时,持续学习前沿时序技术!