搜索
搜 索
本版
文章
帖子
用户
图文精华
hadoop-2.6.0+zookeeper-3.4.6+hbase-1.0.0+hive-1.1.0完全分布 ...
首页
Portal
专题
BBS
面试
办公|编程助手
更多
登录
注册
用户组:游客
主题
帖子
云币
我的帖子
我的收藏
我的好友
我的勋章
设置
退出
导读
淘贴
博客
群组
社区VIP
APP下载
今日排行
本周排行
本周热帖
本月排行
本月热帖
会员排行
About云-梭伦科技
»
专题
›
技术学习(版主发帖区)
›
大数据学习
›
Hadoop|YARN
›
连载型
›
hadoop深入研究:(七)——压缩
0
0
0
分享
hadoop深入研究:(七)——压缩
linshi0591
2014-4-4 22:24:34
发表于
连载型
[显示全部楼层]
只看大图
阅读模式
关闭右栏
0
9560
About云VIP帮助找工作和提升
本帖最后由 pig2 于 2014-4-4 23:09 编辑
1.为什么进行文件压缩?
2.hadoop支持哪几种压缩格式?
3.快速压缩该如何表示?
4.bzip2压缩与gzip压缩各有什么优点和缺点?
5.该如何提高压缩效率?
文件压缩主要有两个好处,一是减少了存储文件所占空间,另一个就是为数据传输提速。在hadoop大数据的背景下,这两点尤为重要,那么我现在就先来了解下hadoop中的文件压缩。
hadoop里支持很多种压缩格式,我们看一个表格:
DEFLATE是同时使用了LZ77算法与哈夫曼编码(Huffman Coding)的一个无损数据压缩算法,源代码可以在zlib库中找到。gzip是以DEFLATE算法为基础扩展出来的一种算法。
所有的压缩算法都是空间和时间的转换,更快压缩时间还是更小的压缩比,可以通过参数来指定,-1意味着速度,-9意味着空间。拿gzip做个例子,下面就意味着更快速的压缩:
gzip -1 file
复制代码
gzip在时间和空间上的取舍比较折中,bzip2压缩比gzip更有效,但是速度更慢。bzip2的解压速度比它的压缩速度要快。但是和其他压缩格式比又是最慢的,但是压缩效果明显是最好的。snappy和lz4的解压速度比lzo好很多。
splittable表示压缩格式是否可以被分割,也就是说是否支持随即读。压缩数据是否能被mapreduce使用,压缩数据是否能被分割就很关键了。
举个例子,一个未压缩的文件有1GB大小,hdfs默认的block大小是64MB,那么这个文件就会被分为16个block作为mapreduce的输入,每一个单独使用一个map任务。如果这个文件是已经使用gzip压缩的呢,如果分成16个块,每个块做成一个输入,显然是不合适的,因为gzip压缩流的随即读是不可能的。实际上,当mapreduce处理压缩格式的文件的时候它会认识到这是一个gzip的压缩文件,而gzip又不支持随即读,它就会把16个块分给一个map去处理,这里就会有很多非本地处理的map任务,整个过程耗费的时间就会相当长。
lzo压缩格式也会是同样的问题,但是通过使用hadoop lzo库的索引工具以后,lzo就可以支持splittable。bzip2也是支持splittable的。那么如何选择压缩格式呢?这取决于文件的大小,你使用的压缩工具,下面是几条选择建议:
效率由高到低排序:
1.用一些包含了压缩并且支持splittable的文件格式,比如Sequence File,RCFile或者Avro文件,这些文件格式我们之后都会讲到。如果为了快速压缩可以使用lzo,lz4或者snappy压缩格式。
2.使用提供splittable的压缩格式,比如,bzip2和索引后可以支持splittable的lzo。
3.提前把文件分成几个块,每个块单独压缩,这样就无需考虑splittable的问题了
4.不要压缩文件以不支持splittable的压缩格式存储一个很大的数据文件是不合适的,非本地处理效率会非常之低。
转载请标明出处:
hadoop深入研究:(七)——压缩
回复
使用道具
举报
提升卡
置顶卡
沉默卡
喧嚣卡
变色卡
千斤顶
显身卡
没找到任何评论,期待你打破沉寂
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
本版积分规则
发表回复
回帖后跳转到最后一页
发表新帖
linshi0591
注册会员
关注
12
主题
23
帖子
2
粉丝
TA的主题
hadoop的核心思想
2014-5-10
hadoop深入研究:(十)——序列化与Writable接口
2014-4-4
hadoop深入研究:(九)---mapreduce中的压缩
2014-4-4
hadoop深入研究:(八)——codec
2014-4-4
hadoop深入研究:(七)——压缩
2014-4-4
24小时热文
Flink CDC:新一代实时数据集成框架
蚂蚁面试就是不一样
如何高效学习
人情世故速查速用大全集
框架思维
关闭
推荐
/2
中文版ChatGPT
1.无需魔法 2.提高编程效率 3.提高文档能力
查看 »
新手帮助
新手帮助:注册遇到问题,领取资源,加入铁粉群,不会使用搜索,如何获取积分等
查看 »
意见
反馈