立即注册 登录
About云-梭伦科技 返回首页

howtodown的个人空间 https://aboutyun.com/?19 [收藏] [复制] [分享] [RSS]

日志

Cloudera 系列3:Cloudera Impala

已有 1944 次阅读2016-5-15 12:26



Cloudera Impala 直接对您存储在 HDFS 或 HBase 中的 Apache Hadoop 数据提供快速、交互式 SQL 查询。除了使用相同统一存储平台之外,Impala 也使用与 Apache Hive 相同的元数据、SQL 语法 (Hive SQL)、ODBC 驱动程序和用户界面(Hive 中的 Cloudera Impala 查询用户界面)。这为实时或面向批处理的查询提供一个熟悉且统一的平台。

Cloudera Impala 是增加的可用于查询大数据的工具的。Impala 不能替代基于 MapReduce 构建的批处理框架(如 Hive)。Hive 和其他基于 MapReduce 构建的框架最适合于长时间运行的批处理作业,例如涉及提取、转换和加载 (ETL) 类型作业的批处理的那些批处理作业。

Impala 好处

Impala 提供:

  • 数据科学家和分析师已经熟悉的 SQL 界面
  • 以交互方式查询 Apache Hadoop 中的大数据的能力
  • 群集环境中的分布式查询,方便扩展和利用经济实惠的商用硬件
  • 无需复制或导出/导入步骤即可在不同组件之间共享数据文件的能力;例如,要使用 Pig 编写数据但使用 Impala 读取数据,或者使用 Impala 编写数据而使用 Hive 读取数据
  • 用于执行大数据处理和分析的单个系统,使客户能够避免仅出于分析目的执行代价高昂的建模和 ETL
Cloudera Impala 如何与 CDH 配合工作

下图展示了如何在更广泛的 Cloudera 环境下定位 Impala:

Impala 解决方案由下列组件构成:
  • 客户端 - 包括 Hue、ODBC 客户端、JDBC 客户端在内的实体以及 Impala Shell 都可以与 Impala 进行交互。通常情况下,这些接口用于发布查询或完成管理任务(例如连接至 Impala)。
  • Hive Metastore - 存储适用于 Impala 的数据的相关信息。例如,Metastore 让 Impala 知道哪些数据库是可用的,以及这些数据库采用的是什么结构。当您通过 Impala SQL 语句创建、删除和修改架构对象,在表中加载数据时,Impala 1.2 中引入的专用目录服务会自动将相关的元数据更改广播至所有 Impala 节点。
  • Cloudera Impala - 此流程在 DataNode 上运行,用于协调和执行查询。Impala 的每个实例都能接收、规划并协调来自 Impala 客户端的查询。查询分布在 Impala 节点之间,并且这些节点担任工作者的角色执行并行查询片段。
  • HBase 和 HDFS - 存储要查询的数据。
如下所述处理使用 Impala 执行的查询:
  1. 用户应用程序通过提供标准查询界面的 ODBC 或 JDBC 发送 SQL 查询至 Impala。用户应用程序可以连接至集群中的任何 impalad。此 impalad 成为查询的 Coordinator。
  2. Impala 对查询进行解析和分析,以确定集群上的 impalad 实例需要执行哪些任务。规划执行以达到最佳效率。
  3. 本地 impalad 实例访问 HDFS 和 HBase 等服务以提供数据。
  4. 每个 impalad 将数据返回至相应的 impalad,然后发送这些结果至客户端。
主要 Impala 功能
Impala 提供下列支持:
  • Hive 查询语言 (HiveQL) 大多数常用的 SQL-92 功能,包括选择连接和聚合函数。
  • HDFS 和 HBase 存储,包括:
    • HDFS 文件格式:文本文件、SequenceFile、RCFile、Avro 文件和 Parquet。【http://www.cloudera.com/content/www/zh-CN/documentation/enterprise/5-3-x/topics/impala_file_formats.html#file_formats】
    • 压缩编码解码器:Snappy、GZIP、Deflate、BZIP。
  • 常见的 Hive 接口包括:
    • JDBC 驱动程序。【http://www.cloudera.com/content/www/zh-CN/documentation/enterprise/5-3-x/topics/impala_jdbc.html#impala_jdbc】
    • ODBC 驱动程序。【http://www.cloudera.com/content/www/zh-CN/documentation/enterprise/5-3-x/topics/impala_odbc.html#impala_odbc】
    • Hue Beeswax 和新的 Cloudera Impala 查询 UI。
  • Impala 命令行界面。【http://www.cloudera.com/content/www/zh-CN/documentation/enterprise/5-3-x/topics/impala_impala_shell.html#impala_shell】
  • Kerberos 身份验证。【http://www.cloudera.com/content/www/zh-CN/documentation/enterprise/5-3-x/topics/impala_security.html#security】


路过

雷人

握手

鲜花

鸡蛋

评论 (0 个评论)

facelist doodle 涂鸦板

您需要登录后才可以评论 登录 | 立即注册

关闭

推荐上一条 /2 下一条