本帖最后由 pig2 于 2016-6-19 12:06 编辑
Spark python 开发者 ---Spark流式数据处理
http://www.aboutyun.com/forum.php?mod=viewthread&tid=18866
1.Spark Streaming在数据密集型应用中的位置在哪?
2.Spark Streaming 内部工作方式是什么样的?
3.Spark Streaming 的底层基础怎么实现?
4.如何构建容错系统?
5.怎样以TCP sockets处理实时数据?
6.如何实时控制Twitter数据 ?
7.如何实时处理Tweets?
8.怎样构建一个稳定缩放的流式应用?
9.如何搭建 Kafka?
10.怎么开发 producers?
11.如何开发 consumers?
12.如何在Kafka 上开发Spark Streaming consumer?
13.如何探索flume?
14.基于Flume, Kafka和Spark开发数据流水线是什么样的?
Hive的HQL语句及数据倾斜解决方案
http://www.aboutyun.com/forum.php?mod=viewthread&tid=18889
1. Hive如何创建内部表和外部表? 2. Hive如何进行分区? 3. Hive常用的基本操作有哪些? 4. Hive如何自定义函数? 5. Hive中常见的数据倾斜有哪些?如何解决?
Kafka设计解析(一)- Kafka背景及架构介绍
http://www.aboutyun.com/forum.php?mod=viewthread&tid=18894
1.kafka有什么作用?
2.常用的消息队列有哪些?
3.Kafka的设计理念是什么?
机器如何感受人类表情:表情符号&深度学习
http://www.aboutyun.com/forum.php?mod=viewthread&tid=18884
1.Dango是什么?
2.Dango的作用是什么?
3.Dango工作原理是什么?
大数据系统数据采集产品的架构总结与介绍、分析
http://www.aboutyun.com/forum.php?mod=viewthread&tid=18869
1.什么是Apache Flume?
2.什么是Fluentd?
3.什么是Logstash?
4.什么是Scribe?
5.什么是Chukwa?
6.什么是Splunk Forwarder?
Kafka Streams入门指南
http://www.aboutyun.com/forum.php?mod=viewthread&tid=18827
1.什么是Kafka Streams?
2.有哪些核心概念?
3.参数如何配置?
数据分析之共同好友统计
http://www.aboutyun.com/forum.php?mod=viewthread&tid=18826
1.如何统计好友?
2.如何用代码实现?
3.用到的算法是什么?
支持关系型数据库及NoSQL的统一数据建模方案
http://www.aboutyun.com/forum.php?mod=viewthread&tid=18811
1.什么是Unified Modelset? 2.Unified Modelset中怎样查询? 3.Unified Modelset中怎样统一链接数据库?
Kylin环境搭建和操作
http://www.aboutyun.com/forum.php?mod=viewthread&tid=18809
1.什么是Kylin? 2.怎样搭建Kylin环境? 3.Kylin工作原理是什么?
Spark 2.0中Dataset介绍和使用
http://www.aboutyun.com/forum.php?mod=viewthread&tid=18780
1.什么是dataset?
2.本文认为DataSet和RDD主要的区别是是什么?
3.Dataset Wordcount实例本文用了几步?
入职阿里巴巴数据分析师——我的10个关键转折点
http://www.aboutyun.com/forum.php?mod=viewthread&tid=18794
Kafka - SQL 引擎分享
http://www.aboutyun.com/forum.php?mod=viewthread&tid=18793
1.在Kafka中使用SQL的流程是什么? 2.怎样配置Kafka,使得在Kafka中使用SQL? 3.在Kafka中使用SQL有哪些注意事项?
hadoop2.6+zookeeper-3.4.6+hbase-1.0.3+hive1.2.1环境搭建
http://www.aboutyun.com/forum.php?mod=viewthread&tid=18824
Spark(1.6.1) Sql 编程指南+实战案例分析
http://www.aboutyun.com/forum.php?mod=viewthread&tid=18753
1、Spark SQL操作流程有哪些?
2、如何加载/保存数据源?
3、保存模式有哪些?
高可用Hadoop平台-Oozie工作流
http://www.aboutyun.com/forum.php?mod=viewthread&tid=18733
1.什么是Oozie? 2.Oozie Server的依赖有哪些?
3.如何配置Oozie?
六步让你从数据分析小白变成高手
http://www.aboutyun.com/forum.php?mod=viewthread&tid=18727
1.数据分析的步骤是什么? 2.怎样进行数据治理? 3.怎样做指标分析?
基于SSH的HDFS文件web管理系统
http://www.aboutyun.com/forum.php?mod=viewthread&tid=18726
1.怎样利用hdfs管理文件? 2.hdfs中怎样检索文件夹? 3.怎样读取序列文件?
资源:
Spark2.0-陈超
http://www.aboutyun.com/forum.php?mod=viewthread&tid=18756
基于hadoop的统一数据存储和分析平台
http://www.aboutyun.com/forum.php?mod=viewthread&tid=18818
hive编程入门课程——少杰
http://www.aboutyun.com/forum.php?mod=viewthread&tid=18839
Spark Streaming使用和概要图:时金魁
http://www.aboutyun.com/forum.php?mod=viewthread&tid=18755
hadoop实战系列2:hadoop源码跟踪及远程调用等
http://www.aboutyun.com/forum.php?mod=viewthread&tid=18886
hadoop实战系列1:hadoop入门及hadoop岗位要求等
http://www.aboutyun.com/forum.php?mod=viewthread&tid=18873
spark编程
http://www.aboutyun.com/forum.php?mod=viewthread&tid=18859
Spark源码解读迷你【书籍推荐】
http://www.aboutyun.com/forum.php?mod=viewthread&tid=18855
淘宝云梯分布式计算平台整体架构
http://www.aboutyun.com/forum.php?mod=viewthread&tid=18854
hive随谈之hive入门
http://www.aboutyun.com/forum.php?mod=viewthread&tid=18840
IBM-bigtable系统和结构【英文】
http://www.aboutyun.com/forum.php?mod=viewthread&tid=18817
途牛谢辉--akka构建响应式流计算
http://www.aboutyun.com/forum.php?mod=viewthread&tid=18797
并行发展的基础架构_Gator.pdf
http://www.aboutyun.com/forum.php?mod=viewthread&tid=18741
Spark_Mllib_实践与优化_雷宗雄
http://www.aboutyun.com/forum.php?mod=viewthread&tid=18739
张宁--移动大数据技术在互联网金融获客及经营中的应用
http://www.aboutyun.com/forum.php?mod=viewthread&tid=18730
问答:
map reduce卡住
http://www.aboutyun.com/forum.php?mod=viewthread&tid=18868
hadoop集群监控工具有哪些,推荐一下
http://www.aboutyun.com/forum.php?mod=viewthread&tid=18864
spark sql 最简单的例子一直运行不成功
http://www.aboutyun.com/forum.php?mod=viewthread&tid=18837
|