百GB级别的文件M/R连接操作该如何处理？

提示: 作者被禁止或删除内容自动屏蔽

desehawk · 发表于 2015-3-19 11:31:37

这个也有方法，即两个大表，选出一个较小的表，然后把较小的表抽出key，变成第三个file，放入内存中，在map阶段可以使用使用DistributedCache，然后将File2中不在File3中的key对应的记录过滤掉，剩下的reduce阶段的工作与reduce side join相同。如果内存中，放不下，可以使用BloomFiler。
详细参考
hadoop mapreduce join原理、方法讲解