hadoop archive ?
hadoop archive 相关的资料有不少,可没有一个详细介绍 arichive 是怎么运作的。生成.HAR文件后是按照HDFS原来的方法分割存储吗吗?能不能把arichive详细的读写过程介绍一下吗?
谢谢各位大虾们了! 唉!自己的自己答下吧。刚学的不对请更正。
archive是一种特别的归档文件格式,在HDFS的基础上把小文件打包成为一个扩展名为.har的归档文件。
.har文件由metadata(_index & _masterindex)和data part(part-*)两部分组成。
下面是猜测:
把_index & _masterindex 存储在namenode的内存里,data part部分复制成3个副本存到datanode里。 不支持压缩,感觉就是打个包,碰到文件琐碎的情况,还是不能提高速度。 har主要是用来压缩inode占用量的,将海量的小文件合成一个大文件。_index&&_masterindex是两个索引文件存储在hdfs上的,副本数为10,加强副本的可靠性。
页:
[1]