大数据初学者怎样学习?(下)
前面一篇文章中主要说了大数据初学者怎样学习的前四章内容,感谢大家继续阅读,不说废话了,这里我们就来继续看看接下来的内容吧!
第五章:快一点吧,我的SQL
其实大家都已经发现Hive后台使用MapReduce作为执行引擎,实在是有点慢。 因此SQL On Hadoop的框架越来越多,按我的了解,最常用的按照流行度依次为SparkSQL、Impala和Presto. 这三种框架基于半内存或者全内存,提供了SQL接口来快速查询分析Hadoop上的数据。关于三者的比较,请参考1.1. 我们目前使用的是SparkSQL,至于为什么用SparkSQL,原因大概有以下吧: 使用Spark还做了其他事情,不想引入过多的框架; Impala对内存的需求太大,没有过多资源部署;
5.1 关于Spark和SparkSQL 什么是Spark,什么是SparkSQL。 Spark有的核心概念及名词解释。 SparkSQL和Spark是什么关系,SparkSQL和Hive是什么关系。 SparkSQL为什么比Hive跑的快。
5.2 如何部署和运行SparkSQL Spark有哪些部署模式? 如何在Yarn上运行SparkSQL? 使用SparkSQL查询Hive中的表。 PS: Spark不是一门短时间内就能掌握的技术,因此建议在了解了Spark之后,可以先从SparkSQL入手,循序渐进。
更多参考原文
|