Apache Kylin的快速入门

问题导读

1Kylin是如何产生的？
2.什么时候会用到Apache Kylin？
3.Apache Kylin发展到了什么程度？

1. Apache Kylin的由来
在现在的大数据时代，Hadoop已经成为大数据事实上的标准规范，一大批工具陆陆续续围绕Hadoop平台来构建，用来解决不同场景下的需求。
比如Hive是基于Hadoop的一个用来做企业数据仓库的工具，可以将存储在HDFS分布式文件系统上的数据文件映射为一张数据库表，并提供SQL查询功能，Hive执行引擎可以将SQL转换为MapReduce任务来进行运行，非常适合数据仓库的数据分析。
再比如HBase是基于Hadoop，实现高可用性，高性能，面向列，可伸缩的分布式存储系统，Hadoop架构中的HDFS为HBase提供了高可靠性的底层存储支持。

但是缺少一个基于Hadoop的分布式分析引擎，虽然目前存在业务分析工具，如Tableau等，但是他们往往存在很大的局限，比如难以水平扩展、无法处理超大规模数据，同时也缺少Hadoop的支持。

Apache Kylin(中文：麒麟)的出现，能够基于Hadoop很好地解决上面的问题。Apache Kylin是一个开源的分布式存储引擎，最初由eBay开发贡献至开源社区。它提供Hadoop之上的SQL查询接口及多维分析（OLAP）能力以支持大规模数据，能够处理TB乃至PB级别的分析任务，能够在亚秒级查询巨大的Hive表，并支持高并发。

2. Apache Kylin的应用场景
(1) 假如你的数据存在于Hadoop的HDFS分布式文件系统中，并且你使用Hive来基于HDFS构建数据仓库系统，并进行数据分析，但是数据量巨大，比如TB级别。
(2) 同时你的Hadoop平台也使用HBase来进行数据存储和利用HBase的行键实现数据的快速查询等应用
(3) 你的Hadoop平台的数据量逐日累增
(4) 对于数据分析的维度大概10个左右

如果你的应用类似上面，那么非常适合采用Apache Kylin来做大数据量的多维数据分析。
Apache Kylin的核心思想是利用空间换时间，将计算好的多维数据结果存入HBase，实现数据的快速查询。同时由于Apache Kylin在查询方面制定了多种灵活的策略，进一步提高空间的利用率，使得这样的平衡策略在应用中值得采用。

3. Apache Kylin的发展历程
Apache Kylin于2014年10月在github开源，并很快在2014年11月加入Apache孵化器，于2015年11月正式毕业成为Apache顶级项目，也成为首个完全由中国团队设计开发的Apache顶级项目。
Apache Kylin的官网为：
http://kylin.apache.org

于2016年3月，Apache Kylin核心开发成员在上海创建Kyligence公司，力求更好地推动项目和社区的快速发展。
公司官网为：http://kyligence.io