看有没有Java基础了,有基础最好。没有也关系不大。可以先熟悉一下Java,这样学起来容易。最好是javaSE学会了,在学hadoop.生态圈里的各种组件,比如yarn,mapreduce,hdfs,然后最好学之前简单熟悉一下linux系统的基本操作。这样学起来更容易上手,因为Hadoop集群环境都是在linux系统上的。hadoop学会就是学hive 离线处理数据的一个框架,架设在hadoop上的数据仓库。在学nosql的数据库hbase. 列式存储,支持大容量高并发读写数据。输出的结果一般写入到hbase里,也可以写到mysql里。 学完后就可以进入spark学习了。学习基本的rdd算子,经典的wordcount程序。融会贯通后就学它的架构和原理。比如rdd的各种函数。学大数据最重要的就是搞懂原理,就是各个组件的关系,任务提交流程。执行流程等。原理懂了代码自然就能写出了。学spark最好熟悉一下scala语言,因为源码就是scala实现的。差不多就这样,再模拟做几个项目就差不多。不要看太多书,多动手操作。 |