AWS Elastic MapReduce开始支持Hive 13

前言：
近日，AWS官方博客宣布Elastic MapReduce开始支持Hive 13。Hive是创建和检索大数据集的主要工具，它与一些强大的工具一起支持ETL（Extract/Transform/Load）过程，并为存储在HDFS中的EMR集群或Amazon S3提供访问权限。Hive提供的编程和特殊查询利用了MapReduce模型的大规模并行样式。

问题导读：
1、hive 13版本的新特性有哪些？

1、Hive 13版本特征
HIVE 13包括了各种实用并炫酷的新特性：

1）、矢量化的查询执行
这个特性可为扫描、过滤、聚合和连接等查询方式降低CPU使用率。取代一行一行的查询过程，矢量化的查询执行以可同时执行1024行数据为特点，降低了内部开销并允许在紧密高效的循环中处理数据列存储。
要利用这一特性，就必须以ORC (Optimized Row Columnaer)格式存储数据。可通过ORC: An Intelligent Big Data file format for Hadoop andHive 了解更多ORC格式及其优势。

2）、加速序列化计划
序列化一个查询计划的过程（将复杂的Java对象转换成XML）变得更快了，加速了查询计划到工作节点的传输并优化了所有的Hive性能。

3）、支持decimal和char数据类型
新的DECIMAL数据类型支持高达38位精确度的数值表达；新的CHAR数据类型支持fixed-length和 space-padded字符串。更多信息请参阅Hive Data Types

4）、支持IN, NOT IN, EXISTS, 和 NOT EXISTS子查询
Hive subqueries的WHERE子句在相关和无关表格中支持IN, NOT IN, EXISTS, 和 NOT EXISTS语句，无关子查询是指其列不引用父查询列。

5）、WHERE子句中加入条件
Hive支持在WHERE子句中加入条件

6）、改进Windowing Functions
Hive现在支持改进并高优化了的“windowing”功能版本，可聚集在一个移动窗口。比如，你可以轻松计算出指定天数的股票动态平均价格
在新推出的集群中，用户可通过Elastic MapReduce 3.2.0开始使用这些新特征。

图文精华

AWS Elastic MapReduce开始支持Hive 13

推荐 /2