1.Linux基础和分布式集群技术
在大数据领域,使用最多的操作系统就是Linux系列,并且几乎都是分布式集群。该课程为大数据的基础课程,主要介绍Linux操作系统、Linux常用命令、Linux常用软件安装、Linux网络、防火墙、Shell编程等。
2.离线计算系统课程阶段
2.1、通过对大数据技术产生的背景和行业应用案例了解hadoop的作用;
2.2、掌握hadoop底层分布式文件系统HDFS的原理、操作和应用开发;
2.3、掌握MAPREDUCE分布式运算系统的工作原理和分布式分析应用开发;
2.4、掌握Hive数据仓库工具的工作原理及应用开发。
3.离线数据挖掘课程阶段
3.1、通过对数据仓库知识的加强初步掌握数据仓库的核心概念和设计流程;
3.2、通过对HADOOP生态圈关键辅助工具的学习掌握hadoop分析系统的整合能力;
3.3、通过电商系统点击流日志数据挖掘系统实战项目,掌握hadoop离线数据挖掘系统从数据采集、入库、分析及报表展现的整套流程
4.Storm实时计算部分阶段
流式计算核心技术主要分为两个核心技术点:Storm和Kafka,学完此阶段能够掌握Storm开发及底层原理、Kafka的开发及底层原理、Kafka与Storm集成使用。具备开发基于storm实时计算程序的技术能力。
5.Spark内存计算阶段
5.1.掌握Scala函数式编程特性,熟练使用Scala开发程序,可以看懂其他用Scala编写源码。
5.2.搭建Spark集群、使用Scala编写Spark计算程序,熟练掌握Spark原理,可以阅读Spark源码。
5.3.理解DataFrame和RDD之间的关系,熟练使用DataFrame的API,熟练使用Spark SQL处理结构化数据,通过Spark SQL对接各种数据源,并将处理后结果写回到存储介质中。
5.4.理解Spark Streaming的核心DStream,掌握DStream的编程API并编写实时计算程序。
获取大数据全套视频:http://blog.itpub.net/30522879/viewspace-2140406/