分享

百GB级别的文件M/R连接操作该如何处理?

tchangwei 发表于 2015-3-19 10:25:23 [显示全部楼层] 回帖奖励 阅读模式 关闭右栏 4 15888
提示: 作者被禁止或删除 内容自动屏蔽

已有(4)人评论

跳转到指定楼层
desehawk 发表于 2015-3-19 11:31:37


这个也有方法,即两个大表,选出一个较小的表,然后把较小的表抽出key,变成第三个file,放入内存中,在map阶段可以使用使用DistributedCache,然后将File2中不在File3中的key对应的记录过滤掉,剩下的reduce阶段的工作与reduce side join相同。如果内存中,放不下,可以使用BloomFiler。
详细参考
hadoop mapreduce join原理、方法讲解
回复

使用道具 举报

desehawk 发表于 2015-3-19 11:37:47
desehawk 发表于 2015-3-19 11:31
这个也有方法,即两个大表,选出一个较小的表,然后把较小的表抽出key,变成第三个file,放入内存中, ...

关于代码的实现,参考这篇文章
hadoop mapreduce join代码示例及讲解
回复

使用道具 举报

tchangwei 发表于 2015-3-19 14:19:39
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

kaka100 发表于 2015-5-6 18:03:41
多谢大神指点
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条