1、 1 计算机与信息学院计算机与信息学院 数据结构课程设计数据结构课程设计 设计设计:电文的电文的编码译码编码译码 姓名:姓名: 专业:专业:20122012 级级数学与应用数学数学与应用数学 学号:学号: 2 目录目录 一、需求分析一、需求分析 3 3 二、设计要求二、设计要求 3 3 三、概要设计三、概要设计 4 4 哈夫曼树的建立哈夫曼树的建立 . 4 哈夫曼编码哈夫曼编码 . 5 代码文件的译代码文件的译码码 . 5 四、详细设计四、详细设计 5 5 字符统计字符统计 5 哈夫曼树的算法哈夫曼树的算法 . 5 哈夫曼译码哈夫曼译码 7 主函数主函数 7 五、调试五、调试 8 8 附录附录
2、 1010 3 电文的电文的曼编码译码曼编码译码 一一、需求分析需求分析 在当今信息爆炸时代, 如何采用有效的数据压缩技术节省数据文 件的存储空间和计算机网络的传送时间已越来越引起人们的重视, 哈 夫曼编码正是一种应用广泛且非常有效的数据压缩技术。 哈夫曼编码 是一种编码方式,以哈夫曼树即最优二叉树,带权路径长度最小的 二叉树, 经常应用于数据压缩。哈夫曼编码使用一张特殊的编码表将 源字符(例如某文件中的一个符号)进行编码。这张编码表的特殊之 处在于, 它是根据每一个源字符出现的估算概率而建立起来的(出现 概率高的字符使用较短的编码,反之出现概率低的则使用较长的编 码,这便使编码之后的字符串的
3、平均期望长度降低,从而达到无损压 缩数据的目的) 。哈夫曼编码的应用很广泛,利用哈夫曼树求得的用 于通信的二进制编码称为哈夫曼编码。 树中从根到每个叶子都有一条 路径,对路径上的各分支约定:指向左子树的分支表示“0”码,指 向右子树的分支表示“1”码,取每条路径上的“0”或“1”的序列 作为和各个叶子对应的字符的编码, 这就是哈夫曼编码。 哈夫曼译码 输入字符串可以把它编译成二进制代码, 输入二进制代码时可以编译 成字符串。 二、二、设计要求设计要求 对输入的一串电文字符实现哈夫曼编码, 再对哈夫曼编码生成的 代码串进行译码,输出电文字符串。 通常我们把数据压缩的过程称为 编码,解压缩的过程称
4、为解码。电报通信是传递文字的二进制码形式 4 的字符串。但在信息传递时,总希望总长度能尽可能短,即采用最短 码。假设每种字符在电文中出现的次数为 Wi,编码长度为 Li,电文 中有 n 种字符, 则电文编码总长度为WiLi。 若将此对应到二叉树上, Wi 为叶结点的权,Li 为根结点到叶结点的路径长度。那么,WiLi 恰好为二叉树上带权路径长度。因此 ,设计电文总长最短的二进制 前缀编码,就是以 n 种字符出现的频率作权,构造一棵哈夫曼树,此 构造过程称为哈夫曼编码。设计实现的功能: (1) 哈夫曼树的建立; (2) 哈夫曼编码的生成; (3) 编码文件的译码。 三、三、概要设计概要设计 哈夫
5、曼编译码器的主要功能是先建立哈夫曼树,然后利用建好 的哈夫曼树生成哈夫曼编码后进行译码 。 在数据通信中,经常需要将传送的文字转换成由二进制字符 0、 1 组成的二进制串,称之为编码。构造一棵哈夫曼树,规定哈夫曼树 中的左分之代表 0,右分支代表 1,则从根节点到每个叶子节点所经 过的路径分支组成的 0 和 1 的序列便为该节点对应字符的编码, 称之 为哈夫曼编码。 最简单的二进制编码方式是等长编码。若采用不等长编码,让出 现频率高的字符具有较短的编码, 让出现频率低的字符具有较长的编 码,这样可能缩短传送电文的总长度。哈夫曼树课用于构造使电文的 编码总长最短的编码方案。 设计包含的几个方面:
6、 哈夫曼树的建立哈夫曼树的建立 赫夫曼树的建立由赫夫曼算法的定义可知, 初始森林中共有 n 棵只含 5 有根结点的二叉树。算法的第二步是:将当前森林中的两棵根结点权 值最小的二叉树,合并成一棵新的二叉树;每合并一次,森林中就减 少一棵树,产生一个新结点。显然要进行 n1 次合并,所以共产生 n1 个新结点,它们都是具有两个孩子的分支结点。由此可知,最 终求得的哈夫曼树中一共有 2n1 个结点, 其中 n个结点是初始森林 的 n 个孤立结点。并且哈夫曼树中没有度数为 1 的分支结点。我们可 以利用一个大小为 2n-1 的一维数组来存储赫夫曼树中的结点。定义 的结构体类型如下: typedef struct char data; /结点字符 int weight; /权值 int parent; /双亲结点 int lchild; /左孩子结点 int rchild; /右孩子结点