分享

我想问几个问题:LZO压缩格式是否支持splitable?

sstutu 发表于 2014-5-5 15:59:41 [显示全部楼层] 只看大图 回帖奖励 阅读模式 关闭右栏 5 17863
我想问几个问题:
1.LZO压缩格式是否支持splitable?
网上有例子说LZO支持splitable,而有的却说不支持(hadoop权威指南也写着不支持),可能是版本不同,但是我比较了文档的时间,基本都是2011年到2012年的,相对现在来说,LZO是否支持splitable?
2.公司中常用的hadoop压缩格式是哪个?
20140505154059.jpg

这是我这两天刚测试的压缩格式对比
3.压缩后解压有什么作用?
个人理解:压缩后可以直接运行MR,为什么还需要解压呢?运行MR的时候就会自动解压的。
4.压缩后的格式能不能直接导入到hive数据库中?



欢迎加入about云群425860289432264021 ,云计算爱好者群,关注about云腾讯认证空间

已有(5)人评论

跳转到指定楼层
pig2 发表于 2014-5-5 16:00:49
1、不支持 2、公司常用啊  以前用gzip 这块了解不多
3、压缩后,就是为了存储减少空间,传输减少数据量,何时需要解压?
4、可以。但需要遵循你创建表的定义。

回复

使用道具 举报

sstutu 发表于 2014-5-5 16:01:48
我看了一些资料,说支持的占一大半,刚才找了一个分析,给大家粘贴一下看看:
在hadoop中使用lzo的压缩算法可以减小数据的大小和数据的磁盘读写时间,不仅如此,lzo是基于block分块的,这样他就允许数据被分解成chunk,并行的被hadoop处理。这样的特点,就可以让lzo在hadoop上成为一种非常好用的压缩格式。

lzo本身不是splitable的,所以当数据为text格式时,用lzo压缩出来的数据当做job的输入是一个文件作为一个map。但是sequencefile本身是分块的,所以sequencefile格式的文件,再配上lzo的压缩格式,就可实现lzo文件方式的splitable。

回复

使用道具 举报

pig2 发表于 2014-5-5 16:04:02
压缩可以减少存储空间,同时由于压缩了, 导致每一个Slot处理的数据会更多
反正LZO支持拆分,我这就用LZO压缩的
回复

使用道具 举报

sstutu 发表于 2014-5-5 16:05:38
那LZO运行MR时,速度怎么样?LZO的压缩比其实不是很理想
回复

使用道具 举报

hyj 发表于 2014-5-5 16:07:10
snappy的不错
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条