文献阅读：High-Ratio Lossy Compression: Exploring the Autoencoder to Compress Scientific Data

一去不复返的通信er

于 2025-06-06 10:41:34 发布

阅读量720

点赞数 22

CC 4.0 BY-SA版权

分类专栏：智简网络&语义通信文献阅读文章标签：算法人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_42980908/article/details/148459506

智简网络&语义通信文献阅读专栏收录该内容

29 篇文章

订阅专栏

目录

论文简介

作者
Tong Liu , Jinzhen Wang , Qing Liu , Shakeel Alibhai, Tao Lu, and Xubin He , Senior Member, IEEE
发表期刊or会议
《IEEE TRANSACTIONS ON BIG DATA》
发表时间
2020.1

动机：为什么作者想要解决这个问题？

高性能计算（HPC）科学数据产生海量的浮点数，传统无损压缩（如 ZIP、gzip）压缩比低（约 2-4 倍），而现有有损压缩算法（如 SZ、ZFP）虽能达到更高压缩比（数百倍），但难以突破两个数量级（如 100 倍以上），且存在数据失真风险。
自动编码器的潜力：深度学习中的自动编码器在图像压缩中表现出色，但其在科学数据中的应用尚未明确。
先前的研究没有探索自动编码器实现HPC的有损压缩

贡献：作者在这篇论文中完成了什么工作(创新点)？

论文首次针对自动编码器（Autoencoder）在真实 HPC 科学数据中的有损压缩性能展开系统性研究。通过 18 个真实数据集的实验，验证了自动编码器在科学数据压缩中的可行性，并填补了该领域的研究空白。
构建并调优了基于自动编码器的压缩原型，通过数据归一化和Delta 值修正等策略，显著降低压缩误差并提升压缩比

规划：他们如何完成工作？

将科学数据转换为双精度浮点数据（每个数字8字节），然后写入二进制文件。每个文件大约有400,000个数据。把这个二进制文件分成两个相等的部分，即训练集和测试集。

数据归一化：在输入AE之前，将所有的诗句映射到[0.01,0.1]之间。

Delta 值修正：对超过误差阈值的数据点存储差值（Delta）和索引，确保误差 bounded，提升压缩可靠性

理由：通过什么实验验证它们的工作结果

1.层数优化实验

目的：确定自动编码器的最佳层数。
方法：
选取 3 个数据集（yf17_t、maclaurin-p、swept），在理论压缩比 512、误差界 0.1/0.01/0.001 下，测试 3 层、5 层、7 层网络的压缩性能。
结论：7 层网络在多数情况下压缩比和误差表现最优，过多层数易因过拟合导致性能下降。

2.压缩比与误差界对比实验

目的：对比自动编码器与传统算法（SZ、ZFP）的压缩性能。
方法：
对 18 个真实 HPC 数据集，在统一误差界（0.1、0.01、0.001）下，比较三者的实际压缩比。
自动编码器通过数据归一化和 Delta 修正确保误差达标，计算包含元数据的实际压缩比。
结论：
自动编码器在多数数据集上压缩比显著更高，如比 SZ 高 2–4 倍，比 ZFP 高 10–50 倍。
示例：yf17_t 数据集在误差界 0.1 下压缩比达 467 倍，为 SZ（119 倍）的 3.92 倍。

3. 大数据集扩展性实验

目的：验证自动编码器在大规模数据上的适用性。
方法：
选取 SCALE-LETKF（3.39GB）和 HACC（1.69GB）数据集，测试压缩比和元数据开销。
复用同应用数据的训练知识（如变量、时间步）减少训练时间。
结论：
压缩比与小数据集趋势一致，元数据开销占比 < 3%（如误差界 0.001 时），验证可扩展性。
训练时间通过知识复用缩短至原时间的 1/200–1/300。

4.可视化与应用误差实验

目的：验证压缩后数据的可用性。
方法：
对 yf17_t 数据集，在压缩比 30x、50x、100x 下，对比自动编码器与 SZ 的解压缩数据可视化效果（如网格拓扑重建）。
结论：自动编码器在高压缩比下仍能保持数据特征，而 SZ 在 50x 以上出现明显失真。

5.数据特征与压缩性能相关性实验

目的：分析数据集特性对自动编码器性能的影响。
方法：
计算 16 个数据集的变异系数（CV）、字节熵等特征，对比压缩误差。
结论：低 CV（数据平滑）的数据集压缩误差更低，CV 可作为适用性指标（如 CV<0.4 时误差 < 0.1）。

CV 是标准差与均值的比值，计算公式为： $\frac{\text{标准差}}{\text{均值}}$
其本质是无量纲的相对离散程度指标，用于比较不同均值的数据集的波动情况。

自己的看法(作者如何得到的创新思路)

这篇文章首次将自编码器用于HPC科学数据压缩

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。