分享

如何实现从字典里查找数据并加入已有文件中?

kentlc 发表于 2015-5-24 01:01:05 [显示全部楼层] 回帖奖励 阅读模式 关闭右栏 3 15402
我有两个文件,文件A包含一系列的字符串,文件B是字典,一列字符串,一列对应的中文名。我希望通过一个程序将A的字符在字典B中找到,并将对应文字加在A的后面。也就是如下:
文件A:
abc
def
ghi
文件B:
qwe 123
abc 456
def 789
输出:
abc 456
def 789
ghi null

因为数据量很大,请问可以用map/reduce实现么?因为文件是保存在HDFS上的,不能传到本地,请问应该如何操作呢?求各位大大指点!!!

已有(3)人评论

跳转到指定楼层
bob007 发表于 2015-5-24 02:00:52
这有点类似创建索引,楼主可以看看solr和nutch.
通过mapreduce倒是可以,但是应该有现成的解决方案
回复

使用道具 举报

sprite101 发表于 2015-5-24 10:39:43
mr可以做到,看看mr的join
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条