在 Impala 使用表和列统计信息的例子
下面的例子通过一系列的 SHOW TABLE STATS, SHOW COLUMN STATS, ALTER TABLE, SELECT , INSERT 语句来演示了 Impala 如何使用统计信息帮助优化查询的各个方面。
这一例子展示了 STORE 表的表和列的统计信息,这个表使用的是 TPC-DS 决策支持系统基准测试中的表。这是一个只有 12 行数据的小表。最初,在使用 COMPUTE STATS 采集统计信息之前,大多数数字列显示占位符 -1,表示这一数字是未知的。这一待填充的数值是容易在物理层计量或推断出的,如文件个数,文件的总数据大小,以及对具有固定大小如 INT,FLOAT,TIMESTAMP 等数据类型的最大和平均大小(Thefigures that are filled in are values that are easily countable or deducible atthe physical level, such as the number of files, total data size of the files,and the maximum and average sizes for data types that have a constant size suchas INT, FLOAT, and TIMESTAMP)。
关于在统计信息可用时,演示一些查询工作方式不同的例子,参见 Examples of Join Order Optimization。在采集统计信息之前和之后,观察EXPLAIN 的输出,你可以看到 Impala 使用不同方式执行同一个查询。对比之前和之后的查询时间,检查之前和之后 PROFILE 输出的吞吐量的值, to verify how muchthe improved plan speeds up performance.
Impala 查询基准测试
与其他 Hadoop 组件类似,因为 Impala 是设计用来处理分布式环境中大量数据的,所以应使用真实的数据和集群配置进行性能测试。使用多节点的集群而不是单节点的;对包含 TB 数据的表进行查询而不是几十G的。Impala所有使用的并行处理技术最适合用于超出了单个服务器容量的负载。
当你执行查询返回大量的行,打印输出结果所花费的 CPU 时间是巨大的,为实际查询时间添加了不准确的度量(the CPUtime to pretty-print the output can be substantial, giving an inaccuratemeasurement of the actual query time)。请考虑在 impala-设立了 命令中使用 -B 选项关闭打印结果,而可选的 -o 选项可以保存查询结果到一个文件而不是打印到屏幕上。参见 impala-shellCommand-Line Options 了解详细信息。
控制资源使用
通过为 impalad 守护进程指定 -mem_limits 选项,你可以限制查询执行时 Impala 使用的内存量。参见 ModifyingImpala Startup Options 了解详细信息。这一限制仅对查询直接消耗的内存有效;Impala 在启动时保留了额外的内存,例如用于缓存元数据。
对于生产部署,Cloudera 推荐使用如 cgroups 机制实现资源隔离,可以在 Cloudera Manager 中配置。参见 ManagingClusters with Cloudera Manager 了解详细信息。
当你结合 CDH 5 使用 Impala 时,你可以像在 UsingResource Management with Impala (CDH 5 Only) 中描述的那样使用 YARN 资源管理框架。目前 CDH 5 仍是 beta 版;用于CDH 5 beta 版的对应 Impala 版本是1.2.0。
理解 EXPLAIN 计划 EXPLAIN 语句提供查询将要执行的逻辑步骤的大纲,例如工作在节点之间如何分布,以及中间结果如何组合产生最终结果集。你可以在实际执行查询之前看到这些详细信息。你可以使用这些信息来检查查询是否使用一些非常意外的或低效的方式执行。
在查询 profile 报告的开始部分,EXPLAIN 计划同样被打印出来,以便于检查查询的逻辑和物理的各个方面。
EXPLAIN 输出的细节的数量由 EXPLAIN_LEVEL 查询选项控制。当性能调整时复核表和列的统计信息时,或与 CDH5 中资源管理功能联合评估查询资源使用情况时(or when estimating query resource usage in conjunctionwith the resource management features in CDH 5),通常从 normal 修改为 verbose (或 0 到 1)。
理解查询 Profile
PROFILE 语句在 impala-shell 中可用,产生一个最近执行语句的详细的底层报告。 不像在 Understandingthe EXPLAIN Plan 中描述的 EXPLAIN 那样,这一信息仅当查询执行完成后可用。它展示了物理细节如每一节点读取的字节数,最大内存使用等等信息。你可以使用这些信息确定查询是 I/O 密集(I/O-bound)还是CPU 密集(CPU-bound),是否一些网络条件达到瓶颈,是否一台放缓影响到了部分节点而不影响另一部分(whether a slowdown is affecting some nodes but not others),并检查推荐配置如 short-circuit local reads 是否生效。 EXPLAINplan 同样被打印在查询 profile 报告的开始,以便于检查查询的逻辑和物理的各个方面。在 EXPLAIN_LEVEL 中描述的 EXPLAIN_LEVEL 查询选项,同样对控制 PROFILE 命令中产生的 EXPLAIN 输出打印的详细程度有效。
[impalad-host:21000] > SELECT COUNT(*) FROM MyTable
复制代码
2.当查询完成后,检查 Impala 日志的内存。你可能会发现类似下面的消息:
Total remote scan volume = 0
复制代码
远程扫描的存在标识 impalad 没有运行在正确的节点上。当一些数据节点上没有运行 impalad 或无法运行,因为启动查询的 impalad 实例无法连接到一个或多个 impalad 实例(This can be because some DataNodes do not have impalad running or it can be because the impalad instance that is starting thequery is unable to contact one or more of the impalad instances)。
理解这些问题的原因:
连接到调试web服务器。默认的,服务器运行在 25000 端口。这一页面列出了你集群中所有在运行的 impalad 实例。假如列出的实例少于你的预期,这通常表明一些 DataNode 没有运行 impalad。请确保所有 DataNode 都启动了 impalad假如你使用多宿主(multi-homed)主机,请确保 Impala 守护进程的主机名解析到运行的 impalad(If you areusing multi-homed hosts, ensure that the Impala daemon's hostname resolvesto the interface on which impalad is running)。Impala在启动 impalad 时显示主机名。假如需要明确设置主机名,请使用 --hostname 标志
检查 statestored 是否正常运行。复查 state store 日志的内容以确保所有的 impalad 实例别列为连接到 state store
复查 Impala 日志
你可以复查 Impala 日志的内容,查找短路读取(short-circuit reads)或块本地跟踪(block location tracking)没有正常运行的标志。在检查日志之前,对一个小的 HDFS 数据集执行一个简单的查询。完成一个查询任务使用当前设置产生日志信息。启动 Impala 和执行查询的信息可以在 Starting Impala 和 Using the Impala Shell 找到。登录信息可以在 Using Impala Logging 中找到。日志信息和对应的描述如下:
Unknown disk id. This will negativelyaffect performance. Check your hdfs settings to enable block location metadata
Tracking block locality 未启用
Unable to load native-hadoop library for your platform... using builtin-javaclasses where applicable