关于 mr切片大小的问题
想请教一下,为什么说 不论怎么调参数,都不能让多个小文件“划入”一个 split ? split是对文件的切片,也就是他的基础是基于文件的,所以让文件归于split这是不合常规和设计的。因为文件包含split,而不是split包含文件。
面对小文件,解决办法可参考下面文章
HDFS小文件处理及解决方案
https://www.aboutyun.com/forum.php?mod=viewthread&tid=7391
s060403072 发表于 2020-4-20 18:59
split是对文件的切片,也就是他的基础是基于文件的,所以让文件归于split这是不合常规和设计的。
因为文件 ...
感谢回答,那这样的话,mr 中定义切片大小的方法岂不是很鸡肋吗,mr 给 开发者提供了可以增大或减小切片大小的方法,那这样子的话还不如定死切片大小等于块儿大小 o13674976542 发表于 2020-4-20 20:28
感谢回答,那这样的话,mr 中定义切片大小的方法岂不是很鸡肋吗,mr 给 开发者提供了可以增大或减小切片 ...
对的,增大和缩小其实也是基于文件的。比如split是256M,文件就几K,那也是一个map。
你说的一个切片大小等于块儿,其实很多默认都是这样的。
s060403072 发表于 2020-4-20 20:34
对的,增大和缩小其实也是基于文件的。比如split是256M,文件就几K,那也是一个map。
你说的一个切片大 ...
那这样的话 默认一个文件对应一个切片是为了避免在计算过程中的多余IO,那是什么样的特殊情况才会调整这个切片大小呢?
页:
[1]