课程简介
课程分为四部分: 第一部分集群安装:里面详细介绍了集群安装知识及大数据组件如何实现整合的。大数据组件包括:hadoop、flume、kafka、spark。
第二部分Scala知识:Scala是大数据很重要的一门语言。这里补充了零基础入门知识,为以后学习、使用spark打下基础。
第三部分spark编程知识:这里接上面内容,补充Scala知识,让我们有了spark编程的基础,spark有自己的api,懂得了spark编程基础,如果自己具备传统项目经验,去实现大数据项目,会容易很多。
第四部分about云日志项目实战:这里面教给大家如何整体认识日志搜集,从网站的搭建产生日志,到处理flume,kakfa传递,然后spark streaming实时处理统计。
详细内容如下
整体目录
第一部分:
第二部分:
第三部分:
第四部分:
更新
01. 统计结果中增加时间间隔&过滤异常ip
02.以standalone模式运行统计程序
相关版本:
hadoop2.7.4+spark2+flume1.7+kafka2.11
收获:
1.零基础搭建、整合集群,可以懂得Linux知识、集群搭建、配置、版本整合等知识。
2.学会Scala编程知识,会使用Scala编程
3.懂得spark相关api的使用,特别是SparkSession、spark streaming、spark sql等spark编程相关实战知识
4.日志分析,从零开始,从网站访问到产生日志,然后过滤、清洗数据,通过flume,kakfa传递,通过spark streaming编程实现清洗日志,并通过mysql和web前台展示统计结果。
|