区间编码

算术编码形式的数据压缩方法

区间编码是一种算术编码形式的数据压缩方法,但是人们认为这种方法不受与算术编码相关的专利约束。正是基于这一点,才激起了人们尤其是开放源码社区对于区间编码的兴趣。但是,人们经常认为区间编码与算术编码之间只有细微的区别,实际上二者是一样的。关于这个问题,需要注意的是G.Nigel N.Martin在 1979 年的论文中定义为“区间编码:去除数字信息中冗余的算法”的区间编码尽管本质上与算术编码相同,但是区间编码经常使用基于Martin论文的特殊实现方法,根据Martin论文的年代,人们通常认为这些实现不受算术编码相关的专利的约束。

简介
区间编码是一种基于统计模型的无损压缩算法。G.N.N.Martin在1979年的视频和数据记录会议(Video&Data Recording Conference)上提交了一篇论文:《区间编码:去除数字信息中冗余的算法》(Rangeencoding:analgorithm for removing redundancy from a digitised message.),第一次提出了区间编码算法的思想。区间编码的实现都是基于该论文中描述的方法。尽管从本质上说区间编码与算术编码是相同的,但是根据该论文的发表年代,通常认为区间编码算法不受与算术编码算法相关的专利约束。正是因为如此,越来越多的研究人员将目光转向了区间编码算法。
与经典的哈夫曼编码相比,区间编码可以获得更高的压缩率。因为传统上的哈夫曼编码是以位作为单位为符号分配编码。即使一个符号具有非常高的频度,哈夫曼编码也只能为其分配一个位的编码。这限制了压缩率的进一步提升。与哈夫曼编码不同,区间编码将所有的数据映射到一个整数区间内。然后输出一个属于该区间的整数作为输出编码。这意味着区间编码可以无限的接近数据的熵极限。另外,区间编码由于其特点可以很好的与高阶模型相配合。区间编码已经开始大量的应用。
编码方式
区间编码概念上要把所有的消息符号都编码成一个数字,这与哈夫曼编码为每个符号赋予一个位组合格式并且将所有这些位组合格式连接到一起不同。这样区间编码能够实现比哈夫曼编码一个符号一位这个上限还要高的压缩率,并且它没有哈夫曼编码处理概率不为 2 的倍数时的效率问题。
区间编码的核心概念是:对于给定的一个范围足够大的整数区间以及符号的概率估计,最初的区间很容易切分成与所表示的符号概率成比例的子区间。将当前区间切分成与下一个待编码符号的概率对应的子区间,通过这种方法就可以对消息中的每个符号进行编码。解码器必须与编码器有同样的概率估计,这种概率估计可以事先发送过去、从已经发送的数据导出或者作为压缩器或者解压器的一部分。
当所有的符号已经编码完成后,仅仅用子区间就可以表示整个信息(当然我们假定解码器提取了整个消息之后通过某种方式得到)。单个的整数实际上已经足够表示子区间,并且可能不需要传输整个的整数;如果有这样一个数字序列,即每个整数的前缀都落在某个子区间,那么前缀本身就已经足够标识字区间并且传输消息。
应用实例
假设我们打算编码消息“AABA”,其中 是消息结束符。对于这个例子来说,假设编码器知道我们打算用十进制数表示,也知道最初的区间是 [0, 100000) 并且频率是 {A: .60; B: .20; : .20},第一个符号将 [0, 100000) 分成三个子区间:
A: [ 0, 60000)
B: [ 60000, 80000)
: [ 80000, 100000)
由于第一符号是 A,所以最初的区间缩减为 [0, 60000)。第二个符号再次将这个区间分成三个子区间,跟在已经编码的 'A' 后面表示:
AA: [ 0, 36000)
AB: [ 36000, 48000)
A: [ 48000, 60000)
两个符号编码之后,区间变成 [000000, 036000),第三个符号得到下面的结果:
AAA: [ 0, 21600)
AAB: [ 21600, 28800)
AA: [ 28800, 36000)
这一次第二段表示我们要编码的消息,这样区间就变成了 [21600, 28800)。在这种情况下看起来确定子区间变得困难了一些,实际上并非如此:我们可以直接用上限减去下限得到 7200,它最前面的 4320 区间是它的 .60,后面的 1440 区间表示随后的 .20,剩余的 1440 表示剩余的 .20,然后加上下限得到区间:
AABA: [21600, 25920)
AABB: [25920, 27360)
AAB: [27360, 28800)
最后,区间缩小到 [21600, 25920),我们还有一个符号要进行编码。与前面一样我们区间进行切分得到:
AABAA: [21600, 24192)
AABAB: [24192, 25056)
AABA: [25056, 25920)
由于 是最后一个符号,所以最后的区间就是 [25056, 25920)。因为以“251”开头的五位整数都落在最后的区间内,这样任何一个三位前缀在这个范围的整数都能够明确地传达原始信息。存在八个这样的前缀这个事实暗示效率仍然不是最高的,这是由于我们使用十进制而不是二进制整数引起的。
这样看起来主要问题就是我们要选择一个足够大的区间,这样不管需要编码多少符号我们都有足够大的区间使得子区间不为 0。但是,实际上这不是一个问题,因为编码器不是从一个非常大的区间开始不断减小这个区间,编码器在任何时刻都只在一个更小的区间工作。在编码一定熟练的数位之后,最左面的数位不再变化。在这个例子中编码三个符号之后,我们就已经知道结果将以“2”开始。随着更多数位从右侧进来,左侧的数位将不断发送出去。
与算术编码的关系
算术编码与区间编码一模一样,但是它用分数取代了整数。这些分数有一个隐含的公分母,这样所有的分数都落在 [0,1) 区间。因此,算术编码结果都解释为以一个隐含的“0”开始。由于这是同样的编码方法的不同解释,并且由于算术编码与区间编码的结果相同,所以算术编码器都是与之对应的区间编码器,反之亦然。换句话说就是,算术编码与区间编码是对于同一事物稍微不同的两种理解方法。
但是,实际应用中区间编码器倾向于使用 Martin 论文(参见 )中描述的实现方法,然而算术编码通常也不叫作区间编码。类似的区间编码器经常提及的一个特性是每次正规化(renormalization)一个字节,而不是每次一位。换句话说,区间编码倾向于使用字节而不是位作为编码数码。尽管这会稍微地减小压缩的比率,但是比每次正规化一位的速度要快很多。
XML动态区间编码方法
DCLS(dynamic containment labelingscheme).DCLS 将基于整数的编码泛化到基于向量的编码,扩展了传统静态区间编码方法,有效避免了 XML 文档更新时的重新编码.不论文档更新与否,DCLS 都显示了良好的性能:DCLS 利用基于整数的静态区间编码方法进行初始编码,在文档不更新的环境下,具有较高的存储效率和查询性能;同时,DCLS 将整数视为特殊向量,不仅能够支持文档更新,而且更新效率高;特别是倾斜插入时,DCLS 可以避免编码位长的快速增加.实验结果表明,与已有的动态区间编码方法相比,DCLS 具有更好的性能。
传统的静态区间编码方法中,每个节点都被赋予一对整数,这对整数表达了节点覆盖区域,进而支持了节点间位置关系和结构关系计算.但是使用静态区间编码不能有效处理 XML 文档更新,一旦更新发生,整个树需要重新编码,系统代价高.为解决该问题,一些研究人员提出了动态区间编码方法,包括浮点数区间 、CDBS以及QED等.相比较静态区间编码,这些方法支持文档更新操作,但同时需要更多时空开销,也降低了查询性能.特别在文档不更新或者少更新环境下,效率偏低。
静态区间编码和动态区间编码各有利弊.当文档不更新或者少更新时,静态区间编码无疑是更好的选择;但当 XML 频繁更新时,静态区间编码性能急剧下降,而动态区间编码则显示出优势.通常情况下,人们很难事先判断文档更新频率,进而不易选择合适的编码方法.这个意义下,开发出有效的动态编码,满足文档更新与否情况下都具有良好性能显得尤为重要.基于此,本文提出了新的动态区间编码方法——DCLS(dynamic containmentlabeling scheme),DCLS 直接在静态区间编码基础上进行扩展,可以有效地支持 XML 动态更新,同时又确保了文档不更新环境下的良好性能。
全国各地天气预报查询

上海市

  • 市辖区
  • 云南省

  • 临沧市
  • 云南省

  • 丽江市
  • 云南省

  • 保山市
  • 云南省

  • 大理白族自治州
  • 云南省

  • 德宏傣族景颇族自治州
  • 云南省

  • 怒江傈僳族自治州
  • 云南省

  • 文山壮族苗族自治州
  • 云南省

  • 昆明市
  • 云南省

  • 昭通市
  • 云南省

  • 普洱市
  • 云南省

  • 曲靖市
  • 云南省

  • 楚雄彝族自治州
  • 云南省

  • 玉溪市
  • 云南省

  • 红河哈尼族彝族自治州
  • 云南省

  • 西双版纳傣族自治州
  • 云南省

  • 迪庆藏族自治州
  • 内蒙古自治区

  • 乌兰察布市
  • 内蒙古自治区

  • 乌海市
  • 内蒙古自治区

  • 兴安盟
  • 内蒙古自治区

  • 包头市
  • 内蒙古自治区

  • 呼伦贝尔市
  • 内蒙古自治区

  • 呼和浩特市
  • 内蒙古自治区

  • 巴彦淖尔市
  • 内蒙古自治区

  • 赤峰市
  • 内蒙古自治区

  • 通辽市
  • 内蒙古自治区

  • 鄂尔多斯市
  • 内蒙古自治区

  • 锡林郭勒盟
  • 内蒙古自治区

  • 阿拉善盟
  • 北京市

  • 市辖区
  • 吉林省

  • 吉林市
  • 吉林省

  • 四平市
  • 吉林省

  • 延边朝鲜族自治州
  • 吉林省

  • 松原市
  • 吉林省

  • 白城市
  • 吉林省

  • 白山市
  • 吉林省

  • 辽源市
  • 吉林省

  • 通化市
  • 吉林省

  • 长春市
  • 四川省

  • 乐山市
  • 四川省

  • 内江市
  • 四川省

  • 凉山彝族自治州
  • 四川省

  • 南充市
  • 四川省

  • 宜宾市
  • 四川省

  • 巴中市
  • 四川省

  • 广元市
  • 四川省

  • 广安市
  • 四川省

  • 德阳市
  • 四川省

  • 成都市
  • 四川省

  • 攀枝花市
  • 四川省

  • 泸州市
  • 四川省

  • 甘孜藏族自治州
  • 四川省

  • 眉山市
  • 四川省

  • 绵阳市
  • 四川省

  • 自贡市
  • 四川省

  • 资阳市
  • 四川省

  • 达州市
  • 四川省

  • 遂宁市
  • 四川省

  • 阿坝藏族羌族自治州
  • 四川省

  • 雅安市
  • 天津市

  • 市辖区
  • 宁夏回族自治区

  • 中卫市
  • 宁夏回族自治区

  • 吴忠市
  • 宁夏回族自治区

  • 固原市
  • 宁夏回族自治区

  • 石嘴山市
  • 宁夏回族自治区

  • 银川市
  • 安徽省

  • 亳州市
  • 安徽省

  • 六安市
  • 安徽省

  • 合肥市
  • 安徽省

  • 安庆市
  • 安徽省

  • 宣城市
  • 安徽省

  • 宿州市
  • 安徽省

  • 池州市
  • 安徽省

  • 淮北市
  • 安徽省

  • 淮南市
  • 安徽省

  • 滁州市
  • 安徽省

  • 芜湖市
  • 安徽省

  • 蚌埠市
  • 安徽省

  • 铜陵市
  • 安徽省

  • 阜阳市
  • 安徽省

  • 马鞍山市
  • 安徽省

  • 黄山市
  • 山东省

  • 东营市
  • 山东省

  • 临沂市
  • 山东省

  • 威海市
  • 山东省

  • 德州市
  • 山东省

  • 日照市
  • 山东省

  • 枣庄市
  • 山东省

  • 泰安市
  • 山东省

  • 济南市
  • 山东省

  • 济宁市
  • 山东省

  • 淄博市
  • 山东省

  • 滨州市
  • 山东省

  • 潍坊市
  • 山东省

  • 烟台市
  • 山东省

  • 聊城市
  • 山东省

  • 菏泽市
  • 山东省

  • 青岛市
  • 山西省

  • 临汾市
  • 山西省

  • 吕梁市
  • 山西省

  • 大同市
  • 山西省

  • 太原市
  • 山西省

  • 忻州市
  • 山西省

  • 晋中市
  • 山西省

  • 晋城市
  • 山西省

  • 朔州市
  • 山西省

  • 运城市
  • 山西省

  • 长治市
  • 山西省

  • 阳泉市
  • 广东省

  • 东莞市
  • 广东省

  • 中山市
  • 广东省

  • 云浮市
  • 广东省

  • 佛山市
  • 广东省

  • 广州市
  • 广东省

  • 惠州市
  • 广东省

  • 揭阳市
  • 广东省

  • 梅州市
  • 广东省

  • 汕头市
  • 广东省

  • 汕尾市
  • 广东省

  • 江门市
  • 广东省

  • 河源市
  • 广东省

  • 深圳市
  • 广东省

  • 清远市
  • 广东省

  • 湛江市
  • 广东省

  • 潮州市
  • 广东省

  • 珠海市
  • 广东省

  • 肇庆市
  • 广东省

  • 茂名市
  • 广东省

  • 阳江市
  • 广东省

  • 韶关市
  • 广西壮族自治区

  • 北海市
  • 广西壮族自治区

  • 南宁市
  • 广西壮族自治区

  • 崇左市
  • 广西壮族自治区

  • 来宾市
  • 广西壮族自治区

  • 柳州市
  • 广西壮族自治区

  • 桂林市
  • 广西壮族自治区

  • 梧州市
  • 广西壮族自治区

  • 河池市
  • 广西壮族自治区

  • 玉林市
  • 广西壮族自治区

  • 百色市
  • 广西壮族自治区

  • 贵港市
  • 广西壮族自治区

  • 贺州市
  • 广西壮族自治区

  • 钦州市
  • 广西壮族自治区

  • 防城港市
  • 新疆维吾尔自治区

  • 乌鲁木齐市
  • 新疆维吾尔自治区

  • 伊犁哈萨克自治州
  • 新疆维吾尔自治区

  • 克孜勒苏柯尔克孜自治州
  • 新疆维吾尔自治区

  • 克拉玛依市
  • 新疆维吾尔自治区

  • 博尔塔拉蒙古自治州
  • 新疆维吾尔自治区

  • 吐鲁番市
  • 新疆维吾尔自治区

  • 和田地区
  • 新疆维吾尔自治区

  • 哈密市
  • 新疆维吾尔自治区

  • 喀什地区
  • 新疆维吾尔自治区

  • 塔城地区
  • 新疆维吾尔自治区

  • 巴音郭楞蒙古自治州
  • 新疆维吾尔自治区

  • 昌吉回族自治州
  • 新疆维吾尔自治区

  • 自治区直辖县级行政区划
  • 新疆维吾尔自治区

  • 阿克苏地区
  • 新疆维吾尔自治区

  • 阿勒泰地区
  • 江苏省

  • 南京市
  • 江苏省

  • 南通市
  • 江苏省

  • 宿迁市
  • 江苏省

  • 常州市
  • 江苏省

  • 徐州市
  • 江苏省

  • 扬州市
  • 江苏省

  • 无锡市
  • 江苏省

  • 泰州市
  • 江苏省

  • 淮安市
  • 江苏省

  • 盐城市
  • 江苏省

  • 苏州市
  • 江苏省

  • 连云港市
  • 江苏省

  • 镇江市
  • 江西省

  • 上饶市
  • 江西省

  • 九江市
  • 江西省

  • 南昌市
  • 江西省

  • 吉安市
  • 江西省

  • 宜春市
  • 江西省

  • 抚州市
  • 江西省

  • 新余市
  • 江西省

  • 景德镇市
  • 江西省

  • 萍乡市
  • 江西省

  • 赣州市
  • 江西省

  • 鹰潭市
  • 河北省

  • 保定市
  • 河北省

  • 唐山市
  • 河北省

  • 廊坊市
  • 河北省

  • 张家口市
  • 河北省

  • 承德市
  • 河北省

  • 沧州市
  • 河北省

  • 石家庄市
  • 河北省

  • 秦皇岛市
  • 河北省

  • 衡水市
  • 河北省

  • 邢台市
  • 河北省

  • 邯郸市
  • 河南省

  • 三门峡市
  • 河南省

  • 信阳市
  • 河南省

  • 南阳市
  • 河南省

  • 周口市
  • 河南省

  • 商丘市
  • 河南省

  • 安阳市
  • 河南省

  • 平顶山市
  • 河南省

  • 开封市
  • 河南省

  • 新乡市
  • 河南省

  • 洛阳市
  • 河南省

  • 漯河市
  • 河南省

  • 濮阳市
  • 河南省

  • 焦作市
  • 河南省

  • 省直辖县级行政区划
  • 河南省

  • 许昌市
  • 河南省

  • 郑州市
  • 河南省

  • 驻马店市
  • 河南省

  • 鹤壁市
  • 浙江省

  • 丽水市
  • 浙江省

  • 台州市
  • 浙江省

  • 嘉兴市
  • 浙江省

  • 宁波市
  • 浙江省

  • 杭州市
  • 浙江省

  • 温州市
  • 浙江省

  • 湖州市
  • 浙江省

  • 绍兴市
  • 浙江省

  • 舟山市
  • 浙江省

  • 衢州市
  • 浙江省

  • 金华市
  • 海南省

  • 三亚市
  • 海南省

  • 三沙市
  • 海南省

  • 儋州市
  • 海南省

  • 海口市
  • 海南省

  • 省直辖县级行政区划
  • 湖北省

  • 十堰市
  • 湖北省

  • 咸宁市
  • 湖北省

  • 孝感市
  • 湖北省

  • 宜昌市
  • 湖北省

  • 恩施土家族苗族自治州
  • 湖北省

  • 武汉市
  • 湖北省

  • 省直辖县级行政区划
  • 湖北省

  • 荆州市
  • 湖北省

  • 荆门市
  • 湖北省

  • 襄阳市
  • 湖北省

  • 鄂州市
  • 湖北省

  • 随州市
  • 湖北省

  • 黄冈市
  • 湖北省

  • 黄石市
  • 湖南省

  • 娄底市
  • 湖南省

  • 岳阳市
  • 湖南省

  • 常德市
  • 湖南省

  • 张家界市
  • 湖南省

  • 怀化市
  • 湖南省

  • 株洲市
  • 湖南省

  • 永州市
  • 湖南省

  • 湘潭市
  • 湖南省

  • 湘西土家族苗族自治州
  • 湖南省

  • 益阳市
  • 湖南省

  • 衡阳市
  • 湖南省

  • 邵阳市
  • 湖南省

  • 郴州市
  • 湖南省

  • 长沙市
  • 甘肃省

  • 临夏回族自治州
  • 甘肃省

  • 兰州市
  • 甘肃省

  • 嘉峪关市
  • 甘肃省

  • 天水市
  • 甘肃省

  • 定西市
  • 甘肃省

  • 平凉市
  • 甘肃省

  • 庆阳市
  • 甘肃省

  • 张掖市
  • 甘肃省

  • 武威市
  • 甘肃省

  • 甘南藏族自治州
  • 甘肃省

  • 白银市
  • 甘肃省

  • 酒泉市
  • 甘肃省

  • 金昌市
  • 甘肃省

  • 陇南市
  • 福建省

  • 三明市
  • 福建省

  • 南平市
  • 福建省

  • 厦门市
  • 福建省

  • 宁德市
  • 福建省

  • 泉州市
  • 福建省

  • 漳州市
  • 福建省

  • 福州市
  • 福建省

  • 莆田市
  • 福建省

  • 龙岩市
  • 西藏自治区

  • 山南市
  • 西藏自治区

  • 拉萨市
  • 西藏自治区

  • 日喀则市
  • 西藏自治区

  • 昌都市
  • 西藏自治区

  • 林芝市
  • 西藏自治区

  • 那曲市
  • 西藏自治区

  • 阿里地区
  • 贵州省

  • 六盘水市
  • 贵州省

  • 安顺市
  • 贵州省

  • 毕节市
  • 贵州省

  • 贵阳市
  • 贵州省

  • 遵义市
  • 贵州省

  • 铜仁市
  • 贵州省

  • 黔东南苗族侗族自治州
  • 贵州省

  • 黔南布依族苗族自治州
  • 贵州省

  • 黔西南布依族苗族自治州
  • 辽宁省

  • 丹东市
  • 辽宁省

  • 大连市
  • 辽宁省

  • 抚顺市
  • 辽宁省

  • 朝阳市
  • 辽宁省

  • 本溪市
  • 辽宁省

  • 沈阳市
  • 辽宁省

  • 盘锦市
  • 辽宁省

  • 营口市
  • 辽宁省

  • 葫芦岛市
  • 辽宁省

  • 辽阳市
  • 辽宁省

  • 铁岭市
  • 辽宁省

  • 锦州市
  • 辽宁省

  • 阜新市
  • 辽宁省

  • 鞍山市
  • 重庆市

  • 重庆市

  • 市辖区
  • 陕西省

  • 咸阳市
  • 陕西省

  • 商洛市
  • 陕西省

  • 安康市
  • 陕西省

  • 宝鸡市
  • 陕西省

  • 延安市
  • 陕西省

  • 榆林市
  • 陕西省

  • 汉中市
  • 陕西省

  • 渭南市
  • 陕西省

  • 西安市
  • 陕西省

  • 铜川市
  • 青海省

  • 果洛藏族自治州
  • 青海省

  • 海东市
  • 青海省

  • 海北藏族自治州
  • 青海省

  • 海南藏族自治州
  • 青海省

  • 海西蒙古族藏族自治州
  • 青海省

  • 玉树藏族自治州
  • 青海省

  • 西宁市
  • 青海省

  • 黄南藏族自治州
  • 黑龙江省

  • 七台河市
  • 黑龙江省

  • 伊春市
  • 黑龙江省

  • 佳木斯市
  • 黑龙江省

  • 双鸭山市
  • 黑龙江省

  • 哈尔滨市
  • 黑龙江省

  • 大兴安岭地区
  • 黑龙江省

  • 大庆市
  • 黑龙江省

  • 牡丹江市
  • 黑龙江省

  • 绥化市
  • 黑龙江省

  • 鸡西市
  • 黑龙江省

  • 鹤岗市
  • 黑龙江省

  • 黑河市
  • 黑龙江省

  • 齐齐哈尔市