Hadoop MapReduce中如何处理跨行Block和inputSplit

查看数: 24893 | 评论数: 9 | 收藏 13

关灯 | 提示：支持键盘翻页<-左右->

发布时间: 2014-5-12 21:31

问题导读： 1.Hadoop对于一个记录行形式的文本，会不会造成一行记录被分到两个Block当中？ 2.在把文件从Block中读取出来进行切分时，会不会造成一行记录被分成两个InputSplit? 3.LineRecordReader的nextKeyValue ...

heelo 发表于 2017-11-9 10:02:16

感谢楼主分享

yanglei 发表于 2016-5-16 15:28:04

谢谢楼主，知道具体的hadoop策略了。

bingyuac 发表于 2016-5-1 17:03:09

很详细，受益良多

shanquan2006 发表于 2016-1-26 15:04:47

新手学习，至少明白Hadoop有处理这种情况的机制了

水电费12 发表于 2015-12-9 21:38:33

不错！谢谢楼主

tang 发表于 2015-4-3 20:05:17

maizhu 发表于 2014-10-3 20:19:41

感谢，学习了

wordwan@163.com 发表于 2014-8-19 10:00:07

非常好，如果楼主拿个实际项目说说就更好了

跃阳紫 发表于 2014-7-29 16:27:41

这确实是初学者困惑的地方，另请问Hadoop数据分块的依据是什么，是根据业务关系还是就只是根据block的默认大小64MB进行分块的，这样就可能导致一条超过一个BLock的大小记录，而被分到两个block中？

图文精华