分享

关于 mr切片大小的问题

想请教一下,为什么说 不论怎么调参数,都不能让多个小文件“划入”一个 split ?

已有(4)人评论

跳转到指定楼层
s060403072 发表于 2020-4-20 18:59:05
split是对文件的切片,也就是他的基础是基于文件的,所以让文件归于split这是不合常规和设计的。
因为文件包含split,而不是split包含文件。
面对小文件,解决办法可参考下面文章
HDFS小文件处理及解决方案
https://www.aboutyun.com/forum.php?mod=viewthread&tid=7391


回复

使用道具 举报

o13674976542 发表于 2020-4-20 20:28:47
s060403072 发表于 2020-4-20 18:59
split是对文件的切片,也就是他的基础是基于文件的,所以让文件归于split这是不合常规和设计的。
因为文件 ...

感谢回答,那这样的话,mr 中定义切片大小的方法岂不是很鸡肋吗,mr 给 开发者提供了可以增大或减小切片大小的方法,那这样子的话还不如定死切片大小等于块儿大小
回复

使用道具 举报

s060403072 发表于 2020-4-20 20:34:53
o13674976542 发表于 2020-4-20 20:28
感谢回答,那这样的话,mr 中定义切片大小的方法岂不是很鸡肋吗,mr 给 开发者提供了可以增大或减小切片 ...

对的,增大和缩小其实也是基于文件的。比如split是256M,文件就几K,那也是一个map。
你说的一个切片大小等于块儿,其实很多默认都是这样的。
回复

使用道具 举报

o13674976542 发表于 2020-4-20 21:11:45
s060403072 发表于 2020-4-20 20:34
对的,增大和缩小其实也是基于文件的。比如split是256M,文件就几K,那也是一个map。
你说的一个切片大 ...

那这样的话 默认一个文件对应一个切片是为了避免在计算过程中的多余IO,那是什么样的特殊情况才会调整这个切片大小呢?
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条