分享

Apache Kylin的快速入门


问题导读

1Kylin是如何产生的?
2.什么时候会用到Apache Kylin?
3.Apache Kylin发展到了什么程度?







1.        Apache Kylin的由来
在现在的大数据时代,Hadoop已经成为大数据事实上的标准规范,一大批工具陆陆续续围绕Hadoop平台来构建,用来解决不同场景下的需求。
比如Hive是基于Hadoop的一个用来做企业数据仓库的工具,可以将存储在HDFS分布式文件系统上的数据文件映射为一张数据库表,并提供SQL查询功能,Hive执行引擎可以将SQL转换为MapReduce任务来进行运行,非常适合数据仓库的数据分析。
再比如HBase是基于Hadoop,实现高可用性,高性能,面向列,可伸缩的分布式存储系统,Hadoop架构中的HDFS为HBase提供了高可靠性的底层存储支持。


但是缺少一个基于Hadoop的分布式分析引擎,虽然目前存在业务分析工具,如Tableau等,但是他们往往存在很大的局限,比如难以水平扩展、无法处理超大规模数据,同时也缺少Hadoop的支持。


Apache Kylin(中文:麒麟)的出现,能够基于Hadoop很好地解决上面的问题。Apache Kylin是一个开源的分布式存储引擎,最初由eBay开发贡献至开源社区。它提供Hadoop之上的SQL查询接口及多维分析(OLAP)能力以支持大规模数据,能够处理TB乃至PB级别的分析任务,能够在亚秒级查询巨大的Hive表,并支持高并发。




2.        Apache Kylin的应用场景
(1)        假如你的数据存在于Hadoop的HDFS分布式文件系统中,并且你使用Hive来基于HDFS构建数据仓库系统,并进行数据分析,但是数据量巨大,比如TB级别。
(2)        同时你的Hadoop平台也使用HBase来进行数据存储和利用HBase的行键实现数据的快速查询等应用
(3)        你的Hadoop平台的数据量逐日累增
(4)        对于数据分析的维度大概10个左右


如果你的应用类似上面,那么非常适合采用Apache Kylin来做大数据量的多维数据分析。
Apache Kylin的核心思想是利用空间换时间,将计算好的多维数据结果存入HBase,实现数据的快速查询。同时由于Apache Kylin在查询方面制定了多种灵活的策略,进一步提高空间的利用率,使得这样的平衡策略在应用中值得采用。




3.        Apache Kylin的发展历程
Apache Kylin于2014年10月在github开源,并很快在2014年11月加入Apache孵化器,于2015年11月正式毕业成为Apache顶级项目,也成为首个完全由中国团队设计开发的Apache顶级项目。
Apache Kylin的官网为:
http://kylin.apache.org



于2016年3月,Apache Kylin核心开发成员在上海创建Kyligence公司,力求更好地推动项目和社区的快速发展。
公司官网为:http://kyligence.io

已有(3)人评论

跳转到指定楼层
xuliang123789 发表于 2016-7-16 09:54:44
谢谢楼主,学习了,赞~
回复

使用道具 举报

恋枫缩影 发表于 2016-7-16 18:04:36
我们中国研发团队越来越强了
回复

使用道具 举报

凌飞羽 发表于 2016-7-17 10:40:24
收藏,谢谢分享
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条