分享

Cloudera Search: 实现Hadoop全文检索


问题导读
1.Cloudera Search的作用是什么?
2.如何全文搜索hadoop?







Cloudera Search的推出,对于曾经做信息检索和使用过Lucene/Solr的我来讲,虽然不是那种令人乍舌的新技术,但从应用层面来考虑,我相信,对于业界而言,毫无疑问是一个相当令人兴奋的消息。想想看,有了集一整套解决方案在手的Cloudera Search在手,现在任何人都可以轻而易举地像使用谷歌百度那样对存储在Hadoop里面的数据进行全文检索了!

Cloudera Search核心部件包括Hadoop和Solr,后者建立在Lucene之上;而Hadoop也正是在06年正式成为Lucene的一个子项目而发展起来的。现在,我们喜见这两个技术再度联手,为更多的用户提供了轻松利用存储在Hadoop里面的海量数据来获取信息和价值的利器,可以预见,包括企业内部及外部在内的,更多的企业应用将可以围绕Hadoop来展开。

下面是一个简单的Cloudera Search组件示意图。
9bf980adgdedba228051d&690.png

通过Tika, Cloudera Search支持大量的被广泛使用的文件格式;除此之外,Cloudera Search还支持很多其他在Hadoop应用中常用的数据,譬如Avro, SequenceFile, 日志文件等。

用来建立索引和全文检索的数据可以是来自于HDFS,譬如日志文件,Hive或者HBase的表等等(通过集成NGData的Lily项目,对HBasae的支持工作也在进行中)。或者通过结合使用Flume采集于外部数据源,通过一个新支持的Flume Sink直接写到索引库里;同时还可以充分利用Flume来对要建立索引的数据进行各种预处理,譬如转换,提取创建元数据等。
建立的索引存储于HDFS。这给搜索带来了易于扩展,冗余和容错的好处。

此外,我们还可以运行MapReduce来对我们所需要检索的数据进行索引,提供给Solr。

大多数情况下, Zookeeper被用来协调各种数据的分布(参考http://wiki.apache.org/solr/SolrCloud),并提供在系统出错的情况下自动切换,提高可靠性。

在系统安装和部署方面,Cloudera Manager可以被用来简化繁琐枯燥的工作,并提供了管理和监控搜索服务的功能。

用户接口上,搜索用户可以使用HUE的搜索界面进行查找操作。或者可以使用命令行工具或者Solr的GUI界面。

目前Cloudera Search还处于测试阶段,性能方面,一个服务器可以支持多达几亿个文档和接近TB的索引,搜索结果通常会在1至2秒之间返回。我们期待稳定版本的早日发布。
http://training.cloudera.com/elearning/SearchOverview/
http://www.cloudera.com/content/support/en/documentation/cloudera-search/cloudera-search-documentation-v1-latest.html

http://wiki.apache.org/solr/
http://wiki.apache.org/solr/SolrCloud

已有(6)人评论

跳转到指定楼层
june_fu 发表于 2015-3-6 14:13:12
感谢分享,持续关注
回复

使用道具 举报

hua0704 发表于 2015-3-6 17:02:43
回复

使用道具 举报

lanxg 发表于 2017-4-12 10:29:09
不错,不知道目前这个应用怎么样?
回复

使用道具 举报

mcmoo 发表于 2017-8-11 13:58:44
lanxg 发表于 2017-4-12 10:29
不错,不知道目前这个应用怎么样?

用的很广泛丫。。除非自己有能力去折腾索引,而且要比Cloudera Search出色,否则这是最好的选择。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条