文献阅读:High-Ratio Lossy Compression: Exploring the Autoencoder to Compress Scientific Data


论文简介

  • 作者
    Tong Liu , Jinzhen Wang , Qing Liu , Shakeel Alibhai, Tao Lu, and Xubin He , Senior Member, IEEE

  • 发表期刊or会议
    《IEEE TRANSACTIONS ON BIG DATA》

  • 发表时间
    2020.1


动机:为什么作者想要解决这个问题?

  • 高性能计算(HPC)科学数据产生海量的浮点数,传统无损压缩(如 ZIP、gzip)压缩比低(约 2-4 倍),而现有有损压缩算法(如 SZ、ZFP)虽能达到更高压缩比(数百倍),但难以突破两个数量级(如 100 倍以上),且存在数据失真风险。
  • 自动编码器的潜力:深度学习中的自动编码器在图像压缩中表现出色,但其在科学数据中的应用尚未明确。
  • 先前的研究没有探索自动编码器实现HPC的有损压缩

贡献:作者在这篇论文中完成了什么工作(创新点)?

  • 论文首次针对自动编码器(Autoencoder)在真实 HPC 科学数据中的有损压缩性能展开系统性研究。通过 18 个真实数据集的实验,验证了自动编码器在科学数据压缩中的可行性,并填补了该领域的研究空白。
  • 构建并调优了基于自动编码器的压缩原型,通过数据归一化Delta 值修正等策略,显著降低压缩误差并提升压缩比

规划:他们如何完成工作?

将科学数据转换为双精度浮点数据(每个数字8字节),然后写入二进制文件。每个文件大约有400,000个数据。把这个二进制文件分成两个相等的部分,即训练集和测试集。

数据归一化:在输入AE之前,将所有的诗句映射到[0.01,0.1]之间。

Delta 值修正:对超过误差阈值的数据点存储差值(Delta)和索引,确保误差 bounded,提升压缩可靠性


理由:通过什么实验验证它们的工作结果

1.层数优化实验

  • 目的:确定自动编码器的最佳层数。
  • 方法:
    选取 3 个数据集(yf17_t、maclaurin-p、swept),在理论压缩比 512、误差界 0.1/0.01/0.001 下,测试 3 层、5 层、7 层网络的压缩性能。
  • 结论:7 层网络在多数情况下压缩比和误差表现最优,过多层数易因过拟合导致性能下降。

2.压缩比与误差界对比实验

  • 目的:对比自动编码器与传统算法(SZ、ZFP)的压缩性能。
  • 方法:
    对 18 个真实 HPC 数据集,在统一误差界(0.1、0.01、0.001)下,比较三者的实际压缩比。
    自动编码器通过数据归一化和 Delta 修正确保误差达标,计算包含元数据的实际压缩比。
  • 结论:
    自动编码器在多数数据集上压缩比显著更高,如比 SZ 高 2–4 倍,比 ZFP 高 10–50 倍。
    示例:yf17_t 数据集在误差界 0.1 下压缩比达 467 倍,为 SZ(119 倍)的 3.92 倍。

3. 大数据集扩展性实验

  • 目的:验证自动编码器在大规模数据上的适用性。
  • 方法:
    选取 SCALE-LETKF(3.39GB)和 HACC(1.69GB)数据集,测试压缩比和元数据开销。
    复用同应用数据的训练知识(如变量、时间步)减少训练时间。
  • 结论:
    压缩比与小数据集趋势一致,元数据开销占比 < 3%(如误差界 0.001 时),验证可扩展性。
    训练时间通过知识复用缩短至原时间的 1/200–1/300。

4.可视化与应用误差实验

  • 目的:验证压缩后数据的可用性。
  • 方法:
    对 yf17_t 数据集,在压缩比 30x、50x、100x 下,对比自动编码器与 SZ 的解压缩数据可视化效果(如网格拓扑重建)。
  • 结论:自动编码器在高压缩比下仍能保持数据特征,而 SZ 在 50x 以上出现明显失真。

5.数据特征与压缩性能相关性实验

  • 目的:分析数据集特性对自动编码器性能的影响。
  • 方法:
    计算 16 个数据集的变异系数(CV)、字节熵等特征,对比压缩误差。
  • 结论:低 CV(数据平滑)的数据集压缩误差更低,CV 可作为适用性指标(如 CV<0.4 时误差 < 0.1)。

CV 是标准差与均值的比值,计算公式为: C V = 标准差 均值 CV = \frac{\text{标准差}}{\text{均值}} CV=均值标准差
其本质是无量纲的相对离散程度指标,用于比较不同均值的数据集的波动情况。


自己的看法(作者如何得到的创新思路)

这篇文章首次将自编码器用于HPC科学数据压缩


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值