日志

Cloudera 系列4：Cloudera Search

已有 1993 次阅读2016-5-15 12:27

Cloudera Search 对存储在或接收到 Hadoop 和 HBase 中的数据提供接近实时的访问。搜索提供与不需要 SQL 或编程技能的既简单又支持全文浏览界面一样出色的近乎实时的索引、批处理索引、全文浏览和向下导航。

搜索与数据处理平台完全集成并使用 CDH 附带的灵活、可扩展且可靠的存储系统。这样，您就无需跨基础架构移动大型数据集来执行业务任务。

Cloudera Search 合并了 Apache Solr，其中包括 Apache Lucene、SolrCloud、Apache Tika 和 Solr Cell。Cloudera Search 与 CDH 4 和 CDH 5 附带的紧密集成。

使用搜索和 CDH 基础架构可提供：

简化基础架构
更好的生产可见性
更快深入了解各种数据类型
更快解决问题
为更多用户和使用案例简化交互和平台访问
用于执行其他类型的相同数据的工作负荷的同一平台上搜索服务的可扩展性、灵活性和可靠性

下表描述了 Cloudera Search 的功能。

表 1. Cloudera Search 功能
功能	说明
通过 Cloudera Manager 进行统一管理和监控	Cloudera Manager 为 CDH 和 Cloudera Search 提供统一且集中的管理和监控。Cloudera Manager 简化搜索服务的部署、配置和监控。许多现有搜索解决方案缺少管理和监控功能，且无法深入了解利用率、系统运行状况、趋势分析和其他支持性方面的情况。
HDFS 中的索引存储	Cloudera Search 与供索引存储的 HDFS 集成。由 Solr/Lucene 创建的索引可随数据直接写入 HDFS 而不是本地磁盘，从而提供容错和冗余。 Cloudera Search 经优化可实现快速读取和写入 HDFS 中的索引，而索引将通过标准 Solr 机制服务和查询。由于数据和索引位于同一位置，因此数据处理不需要传输或单独管理存储。
通过 MapReduce 创建批量索引	为了便于为大型数据集创建索引，Cloudera Search 具有内置的 MapReduce 作业来对 HDSF 中存储的数据进行索引。因此，MapReduce 的线性可扩展性将应用于此索引管道。
对接收数据进行实时和可扩展索引	Cloudera Search 与 Flume 集成以支持近乎实时的索引。随着新事件通过 Flume 层次结构传递并写入到 HDFS，这些事件可直接写入 Cloudera Search 索引器。此外，Flume 还支持路由事件、筛选并对传递到 CDH 的数据进行注释。这些功能与 Cloudera Search 协作可改进索引分区、索引分隔和文档级别的访问控制。
通过 Hue 进行轻松交互和数据浏览	Cloudera Search GUI 作为一个 Hue 插件提供，从而使用户能够以交互方式查询数据、查看结果文件并执行多方面浏览。Hue 也可以安排固定查询和浏览索引文件。此 GUI 使用 Cloudera Search API，它基于标准 Solr API。
简化搜索工作负荷的数据处理	Cloudera Search 依靠 Apache Tika 分析和准备许多供索引的标准文件格式。此外，Cloudera Search 还支持 Avro、Hadoop Sequence 和 Snappy 文件格式映射以及 Log 文件格式、JSON、XML 和 HTML。Cloudera Search 还提供使用 Morphlines 的数据预处理，从而简化这些格式的索引配置。用户可以使用其他应用程序的配置，例如 MapReduce 作业。
HBase 搜索	Cloudera Search 与 HBase 集成，能够对已储存的数据进行全文搜索，而且不会影响 HBase 的性能。侦听器监视复制事件流并捕获每次写入或重复更新事件，从而实现提取和映射。然后，使用与 Cloudera Search 其他索引工作负荷的相同流程直接将该事件发送给 Solr 索引器并写入 HDFS 的索引中。可以立即使用索引，对 HBase 数据执行近乎实时的搜索。

Cloudera Search 的工作原理

在接近实时的索引使用案例中，通过 Apache Flume 传输的 Cloudera Search 索引事件将储存在 CDH 中。字段和事件可映射到标准 Solr 可索引架构。Lucene 索引事件与 Cloudera Search 集成后支持直接写入索引，并将索引存储到 HDFS 中的标准 Lucene 索引文件中。Flume 能够传送事件，还能应用在 HDFS 分区中存储的数据。事件可通过多个 Flume 代理进行路由和传输，并将事件写入可写入单独的索引碎片的单独 Lucene 索引器，从而在索引时实现更好的扩展并提高搜索的响应速度。索引从 HDFS 中加载到 Solr 核心，这与 Solr 从本地磁盘中读取完全相同。Cloudera Search 设计的不同之处在于 HDFS 功能强大、分布式和可扩展存储层，这有助于消除代价高昂的停机，并支持跨工作负载的灵活性且无需移动数据。随后可通过标准 Solr API 或通过一个简单的搜索 GUI 应用程序将搜索查询提交到 Solr，该 GUI 应用程序包含在 Cloudera Search 中，它可以轻松地在 Hue 中部署。

Cloudera Search 针对批处理的索引功能可以处理用于搜索跨批处理上载文件或更新不太频繁和不需要几乎实时索引的大型数据集的需求。对于此类情况，Cloudera Search 会基于 MapReduce 包含一个具有高可扩展性的索引工作流。MapReduce 工作流启动到 HDFS 中指定的文件或文件夹，并在映射阶段执行字段提取和 Solr 架构映射。Reducer 使用 Solr 写入作为单个索引或索引碎片的数据，具体取决于您的配置和首选项。一旦将索引存储到 HDFS 中后，就可以使用标准 Solr 机制查询，如上面几乎实时的索引使用案例所述。

Lily HBase Indexer Service 是一个灵活、可扩展、容错、可用于处理事务和针对几乎实时 (NRT) 系统，可用于处理将 HBase 单元格更新到实时搜索索引的连续流。通常，使用 Flume 接收器相互之间进行数据接收的时间对有可能在搜索结果中显示的内容会以秒数排列顺序，但此时间可调节。Lily HBase Indexer 使用 Solr 索引 HBase 中存储的数据。随着 HBase 将插入、更新和删除应用于 HBase 表格单元格，索引器会利用标准 HBase 复制功能让 Solr 与 HBase 表格内容保持一致。该索引器支持灵活的、自定义的、特定于应用程序的规则来将 HBase 数据提取、转换和加载到 Solr。Solr 搜索结果可以包含到存储在 HBase 中的数据的 columnFamily:qualifier 链接。这样，应用程序可以使用搜索结果集直接访问匹配的原始 HBase 单元格。索引和搜索不影响运营稳定性或 HBase 的写入吞吐量，这是因为索引和搜索的过程是独立并与 HBase 异步。