Cloudera Search: 实现Hadoop全文检索

问题导读
1.Cloudera Search的作用是什么？
2.如何全文搜索hadoop？

Cloudera Search的推出，对于曾经做信息检索和使用过Lucene/Solr的我来讲，虽然不是那种令人乍舌的新技术，但从应用层面来考虑，我相信，对于业界而言，毫无疑问是一个相当令人兴奋的消息。想想看，有了集一整套解决方案在手的Cloudera Search在手，现在任何人都可以轻而易举地像使用谷歌百度那样对存储在Hadoop里面的数据进行全文检索了！

Cloudera Search核心部件包括Hadoop和Solr，后者建立在Lucene之上；而Hadoop也正是在06年正式成为Lucene的一个子项目而发展起来的。现在，我们喜见这两个技术再度联手，为更多的用户提供了轻松利用存储在Hadoop里面的海量数据来获取信息和价值的利器，可以预见，包括企业内部及外部在内的，更多的企业应用将可以围绕Hadoop来展开。

下面是一个简单的Cloudera Search组件示意图。

通过Tika, Cloudera Search支持大量的被广泛使用的文件格式；除此之外，Cloudera Search还支持很多其他在Hadoop应用中常用的数据，譬如Avro, SequenceFile, 日志文件等。

用来建立索引和全文检索的数据可以是来自于HDFS，譬如日志文件，Hive或者HBase的表等等（通过集成NGData的Lily项目，对HBasae的支持工作也在进行中）。或者通过结合使用Flume采集于外部数据源，通过一个新支持的Flume Sink直接写到索引库里；同时还可以充分利用Flume来对要建立索引的数据进行各种预处理，譬如转换，提取创建元数据等。

建立的索引存储于HDFS。这给搜索带来了易于扩展，冗余和容错的好处。

此外，我们还可以运行MapReduce来对我们所需要检索的数据进行索引，提供给Solr。

大多数情况下， Zookeeper被用来协调各种数据的分布（参考http://wiki.apache.org/solr/SolrCloud），并提供在系统出错的情况下自动切换，提高可靠性。

在系统安装和部署方面，Cloudera Manager可以被用来简化繁琐枯燥的工作，并提供了管理和监控搜索服务的功能。

用户接口上，搜索用户可以使用HUE的搜索界面进行查找操作。或者可以使用命令行工具或者Solr的GUI界面。

目前Cloudera Search还处于测试阶段，性能方面，一个服务器可以支持多达几亿个文档和接近TB的索引，搜索结果通常会在１至２秒之间返回。我们期待稳定版本的早日发布。

http://training.cloudera.com/elearning/SearchOverview/
http://www.cloudera.com/content/support/en/documentation/cloudera-search/cloudera-search-documentation-v1-latest.html

http://wiki.apache.org/solr/

http://wiki.apache.org/solr/SolrCloud