搜集了一些面试题,这里汇总下。1.简述对大数据组件:Yarn,Spark,Hbase,Hive的理解Yarn是一个资源管理调度框架,主要有Resource Manager和Node Manager组成。其中Resource Manager负责整个集群中资源的统一的关联与调度,Node Manager负责各个节点的资源管理。Yarn的资源调度过程如下:
1. Client向Resource Manager(这里简写为RM)提交应用程序。
2. RM收到请求后,会在集群环境中找一个节点,在该节点上面启动该应用程序的第一个Container,用于启动Application Master(这里简写为AM)进程。
3. AM启动后,会向RM注册,并且向RM申请运行应用程序所需要的资源。申请成功后,AM或与各个Node Manager(这里简写为NM)通讯,要求NM启动自己申请的资源,NM会启动一些Container。
4. 启动的的Container会向AM汇报自己的运行状态和结果。
5. AM和Client通讯,从而Client可以了解整个应用程序运行的状态和结果。
6. 程序运行结束后,AM会想RM注销自己,释放所申请的资源。
Spark是一个基于内存的分布式计算框架,它和hadoop的mapreduce类似,只不过它是基于内存运行的,而MR会将中间结果落到磁盘中,增加了I/O的开销,相比之下,spark的运行速度比MR要块很多。但是spark它没有提供分布式的存储,所以一般情况下,Spark会结合hadoop的HDFS分布式文件存储系统一起使用。spark的分布式内存计算有一个比较高级的抽象对象,那就是RDD弹性分布式数据集。
怎么理解这个RDD呢?首先是弹性的,这个弹性体现在哪里呢?主要体现以下几点:
1. 数据在计算的过程中,可以自动的在内存和磁盘中进行转换。
2. 当某一步任务计算失败之后,它可以进行指定次数的重试。
3. 基于lineage的高效容错,当第n步运行出错,可以从第n-1步进行恢复。
分布式的体现在哪里呢?主要是在集群环境中随着节点数的增加,可以实现横向的无限扩展。
Spark应用的运行过程大致如下:
1. 根据RDD构建DAG有向无环图。
2. 将DAG有向无环图,根据宽窄依赖,job运行效率等因素,由DAG Schedule拆分为多个stage阶段,每一个stage阶段里包含多个taskset,每一个taskset又包含多个task。
3. 将Taskset提交给task schedule,task schedule通过cluster manager将taskset拆分为一个个单独的task。然后将task交个各个woker节点中的executor。
4. Worker节点中的executor执行每一个task。
Spark应用提交运行的模式有以下4中:local模式,standalone模式,spark on yarn,spark on mesos.
其中的standalone模式,是使用spark自带的集群资源管理。它是一种master-salve主从架构。一个master节点,多个worker节点。并且使用zookeeper来维护一个standby master备份节点来实现Spark的HA。
spark on yarn又可以分为以下两种方式:
1.spark on yarn - client: spark应用的driver program程序运行在client端,这表示整个spark应用程序在运行的过程中,client段不能离开。需要一直在线,clinet端的driver program程序需要和container进行沟通分配并监督任务的运行情况和结果。此时yarn集群环境中的application master只负责资源的申请。
2.spark on yarn - cluster: spark应用程序的driver program程序运行在yarn集群环境中的某一个node manager节点的application master中。application master负责调度整个应用的运行。client此时可以退出端口连接。但是这种模式下,不适合运行交换性的spark应用。