分享

hadoop 创建lucene 多节点索引

fruwei 发表于 2013-10-16 13:41:37 [显示全部楼层] 回帖奖励 阅读模式 关闭右栏 0 5268
大家好 我有个问题  。我有大量文本文件存在hdfs上 现在要通过lucene为他们建立索引 ,首先我将文本聚类成很多子集合 , 用一个文件存储文件id与集合的对应关系 ,即key:集合id;value:文件id 。接下来就是需要建立索引,建索引只需要对各个集合分别做索引,索引文件最终存在各个节点,比如上面有k个集合,最终就会有k个索引目录,分别存在k台机子上。由于已经有用rmi实现多台机子并行建立索引的例子,我现在就是想把这个过程搬到hadoop上,用map/reduce来处理而省去rmi所需要的客户端服务器操作。  其实我的目的很简单 就是想让每个tasktracker自己做本地的一个索引建立 但是我不知道怎么写啊。。。
文档是放在hdfs上的 只是建索引分析的时候需要下载它 最后的索引只需要建立在本地这样

没找到任何评论,期待你打破沉寂

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条