Apache Kylin的快速入门
问题导读
1Kylin是如何产生的?
2.什么时候会用到Apache Kylin?
3.Apache Kylin发展到了什么程度?
static/image/hrline/4.gif
1. Apache Kylin的由来
在现在的大数据时代,Hadoop已经成为大数据事实上的标准规范,一大批工具陆陆续续围绕Hadoop平台来构建,用来解决不同场景下的需求。
比如Hive是基于Hadoop的一个用来做企业数据仓库的工具,可以将存储在HDFS分布式文件系统上的数据文件映射为一张数据库表,并提供SQL查询功能,Hive执行引擎可以将SQL转换为MapReduce任务来进行运行,非常适合数据仓库的数据分析。
再比如HBase是基于Hadoop,实现高可用性,高性能,面向列,可伸缩的分布式存储系统,Hadoop架构中的HDFS为HBase提供了高可靠性的底层存储支持。
但是缺少一个基于Hadoop的分布式分析引擎,虽然目前存在业务分析工具,如Tableau等,但是他们往往存在很大的局限,比如难以水平扩展、无法处理超大规模数据,同时也缺少Hadoop的支持。
Apache Kylin(中文:麒麟)的出现,能够基于Hadoop很好地解决上面的问题。Apache Kylin是一个开源的分布式存储引擎,最初由eBay开发贡献至开源社区。它提供Hadoop之上的SQL查询接口及多维分析(OLAP)能力以支持大规模数据,能够处理TB乃至PB级别的分析任务,能够在亚秒级查询巨大的Hive表,并支持高并发。
2. Apache Kylin的应用场景
(1) 假如你的数据存在于Hadoop的HDFS分布式文件系统中,并且你使用Hive来基于HDFS构建数据仓库系统,并进行数据分析,但是数据量巨大,比如TB级别。
(2) 同时你的Hadoop平台也使用HBase来进行数据存储和利用HBase的行键实现数据的快速查询等应用
(3) 你的Hadoop平台的数据量逐日累增
(4) 对于数据分析的维度大概10个左右
如果你的应用类似上面,那么非常适合采用Apache Kylin来做大数据量的多维数据分析。
Apache Kylin的核心思想是利用空间换时间,将计算好的多维数据结果存入HBase,实现数据的快速查询。同时由于Apache Kylin在查询方面制定了多种灵活的策略,进一步提高空间的利用率,使得这样的平衡策略在应用中值得采用。
3. Apache Kylin的发展历程
Apache Kylin于2014年10月在github开源,并很快在2014年11月加入Apache孵化器,于2015年11月正式毕业成为Apache顶级项目,也成为首个完全由中国团队设计开发的Apache顶级项目。
Apache Kylin的官网为:
http://kylin.apache.org
于2016年3月,Apache Kylin核心开发成员在上海创建Kyligence公司,力求更好地推动项目和社区的快速发展。
公司官网为:http://kyligence.io
谢谢楼主,学习了,赞~ 我们中国研发团队越来越强了 收藏,谢谢分享
页:
[1]