LZW算法详解与源码：动态创建编码表的文本压缩技术

PDF文件

3星 · 超过75%的资源 | 下载需积分: 50 | 991KB | 更新于2024-09-10 | 126 浏览量 | 举报 1 收藏

立即下载

LZW压缩（解压缩）算法详解及源码提供了一种实用的技术，由Lempel、Ziv和Welch三位科学家共同开发，主要用于文本文件的高效压缩。该算法的核心思想是通过分析原始文本数据中的字符序列，动态创建一个编码表，用编码表中的索引替换原始字符，从而达到减小数据体积的目的。 LZW算法在实际应用中特别适合于像GIF图像文件和ZIP压缩这样的场景，其压缩性能卓越。算法的工作流程包括以下关键步骤： 1. **字符提取与编码表构建**： - 从原始文件中逐个读取字符，并将它们加入到编码表中。 - 如果遇到编码表中尚未出现的字符序列，将其添加到表中，并分配一个唯一的编码值。 2. **编码过程**： - 使用当前字符和前一个字符组合创建新字符串，如果这个字符串不在编码表中，就用特定的编码（如256或257）表示“扩展”并开始新编码。 - 如果编码表满了（即编码值为4096），则用256作为扩展标记，表示接下来的编码值将用于创建新字符串。 3. **编码表更新与存储**： - 新创建的字符串被赋予下一个可用的编码值，通常从258开始。 - 压缩过程中，用这些编码值替换原始字符，形成压缩后的数据。 4. **解压缩**： - 从压缩文件中读取编码值，根据当前的编码表反向查找对应的原始字符序列，重新组合成原始文本。举的实例中，字符串 "ababcdefgefg" 经过LZW处理后，可能会通过创建编码表来压缩，例如 "a" 被编码为0，"b" 为1，"ab" 为258，依此类推。这种算法的优点在于其灵活性，能够适应各种文本数据，但可能不适用于无序的或重复程度较低的数据，因为它依赖于字符出现的顺序。在C/C++等编程语言中实现LZW算法时，需要编写函数来管理编码表、读取和写入压缩文件以及进行解压缩操作。理解并掌握这种算法对于处理大量文本数据和优化存储空间至关重要。博客作者提供了详细的源码示例，对于学习和实践LZW算法提供了有价值的学习资料。

14-4-22 LZW压缩（解压缩）算法详解及源码-qingfenghao-ChinaUnix博客

blog.chinaunix.net/uid-23741326-id-3124208.html 1/4

加关注

短消息

论坛

加好友

华仔desi

culhw

mustconf

中央党校

lwgarmst

fuliangc

zhangjie

shangbao

y3609313

博客访问： 854792

博文数量： 80

博客积分： 2175

博客等级：大尉

技术积分： 2212

用户组：普通用户

注册时间： 2010-04-20 20:49

个人简介

欢迎光临我的博客

文章分类

全部博文（80）

嵌入式（5）

C++（11）

UNIX技术内幕（50）

未分配的博文（14）

文章存档

2013年（8）

2012年（36）

2010年（34）

我的朋友

最近访客

Chinaunix首页　| 　论坛　| 　问答　| 　博客登录 | 注册

qingfenghao

LZW压缩（解压缩）算法详解及源码 2012-03-07 11:02:50

分类： C/C++

LZW压缩算法是Lempel-Ziv-Welch 3个人共同发明的，简称 LZW 的压缩算法，可以用任何一种语言来实现它.

LZW是GIF图片文件的压缩算法，而且zip压缩的思想也是基于LZW实现的，所以LZW对文本文件具有很好的压缩

性能。

LZW压缩算法的基本原理：提取原始文本文件数据中的不同字符，基于这些字符创建一个编码表，然后用编码

表中的字符的索引来替代原始文本文件数据中的相应字符，减少原始数据大小。看起来和调色板图象的实现

原理差不多，但是应该注意到的是，我们这里的编码表不是事先创建好的，而是根据原始文件数据动态创建

的，解码时还要从已编码的数据中还原出原来的编码表.

编码表中每一项的大小一般为12位，用来代表一个字符串。这样编码表有2**12=4096项，编码值是0～4095。

通常情况下0～255是固定的，用来代表单个字符0~255。而值256通常用来表示开始新的编码表，因为如果编

码表的4096项都用完了，而待压缩文件还没有处理完，那么就需要生成新的编码表继续压缩；257表示压缩结

束，用来写到压缩文件尾。从258开始，每个值都代表一个字符串（至少2个字符）。

举个例子，有下面的字符串：ababcdefgefg。（a的ascii码是0x61=97)

压缩后的数据是：97 98 258 99 100 101 102 103 263 103。

其中第二个ab被压缩成258，第二个ef被压缩成263，因为这之前在ab和ef第一次出现的时候就已经被按顺序

编入到编码表中。

编码项结构为：

1. typedef struct

2. {

3. char used ; //该项已被编码。

4. UINT prev; //前向编码索引(0~4095)。

5. BYTE c; //本项对应字符。

6. }ENTRY;

编码表是（该编码表只在压缩过程中使用，并不会被写入到最终的压缩文件）：

1. ENTRY string_tab[4096];

具体压缩过程是：

1. 初始化编码表string_tab[0～257]。258～4095为空。即

1. string_tab[i].used=TRUE, string_tab[i].prev=-1，string_tab[i].c=i(0<=i<=257)。

2. string_tab[j].used = FALSE(258<=j<=4095)。

2. 程序读入第一个字符a，到编码表中查找到对应编码97，记录临时前向编码索引prevcode=97，再读入下一

个字符b，然后在编码表中查找prev=97、c='b'的编码项，没有找到，则表明'ab'没有对应的编码项，则把

当前prevcode的值--97写入压缩缓存（该缓存最后会被写入压缩文件）；再创建新的编码项

string_tab[258],且string_tab[258].prev=97,string_tab[258].c='b'。最后更新临时前向编码索引

prevcode=当前字符'b'=98。

3. 程序读入下一个字符a，在编码表中查找prev=prevcode（98）、c='a'的编码项，没有找到，则把当前

prevcode的值98写入压缩缓存；再创建新的编码项string_tab[259],且string_tab[259].prev=98,

string_tab[259].c='a'。最后更新临时前向编码索引prevcode=当前字符'a'=97。

郝庆丰

haoqf.blog.chinaunix.net

想了解UNIX内核？请看《返璞归真--UNIX技术内幕》

首页　| 　博文目录　| 　关于我

2013第三季度“ChinaUnix博客之星”评选

博文

下载后可阅读完整内容，剩余3页未读，继续阅读

开通会员，免费下载（低至0.43元/天)

成为会员后, 你将解锁

下载资源随意下

优质VIP博文免费学

优质文库回答免费看

付费资源9折优惠

su8844

粉丝: 8

LZW算法详解与源码：动态创建编码表的文本压缩技术

lzw的编码分析及实现原理

ncompress:快速，简单的LZW文件压缩器

LZW算法实现的压缩与解压缩程序的C源代码

LZW压缩算法详解与源码分享

经典的LZW算法----C语言实现.txt

libtiff(源码+静态库)

LZ77压缩算法VC源码实现详解

C语言Win-TC环境下LZW压缩算法实现解析

掌握LZW算法：12位与16位源码及软件应用

霍夫曼算法在数据压缩中的应用详解

图像无损压缩技术详解及Matlab实现

VC++图像处理：TIFF文件读写源码详解

掌握关键数据结构算法：C语言实现详解

J2ME平台GIF图像处理工具类详解

从零开始构建RFC1950(zlib compress)压缩工具：一步步打造数据压缩专家

LZW算法的C++语言实现完全代码

Lzw压缩解压缩源代码

LZW的压缩和解压缩(c++)

lzw.rar_LZW Compression_decompression_lzw_lzw matlab

Windows Phone 7 下 Socket(TCP) 与 PC 通讯

(源码)基于Touchdesigner和Ableton的现场表演界面设计项目.zip

最新资源