分享

2015年about云8月第1周

pig2 发表于 2015-8-2 21:02:13 [显示全部楼层] 回帖奖励 阅读模式 关闭右栏 1 9893


Spark SQL结构化数据分析
http://www.aboutyun.com/thread-14481-1-1.html
1.什么是DataFrame?
2.在大数据分析方面spark Sql 提供了哪些助力?
3.Spark 支持哪些数据源?
4.DataFrame有什么特点?
5.DataFrame和 RDD有哪些区别?


【微信分享】梁堰波:主流SQL on Hadoop框架选择
http://www.aboutyun.com/thread-14468-1-1.html
1.Hive on Tez 与 Hive on Spark的优劣势有哪些?
2.Spark SQL有哪些优劣势?
3.Impala有哪些优劣势?
4.SQL on Hadoop解决方案选择的依据是什么?
5.impala最大的规模多少?性能如何?
6.apache phoenix进入cloudera lab能说明什么吗?
7.刚你说到Spark做ETL的痛点,可否详细说说,除下资源预测,还有哪些?
8.根据应用场景不同,sql on hadoop架构还是混合模型的,就是多重组件同时存在?



Ambari——大数据平台的搭建利器之进阶篇
http://www.aboutyun.com/thread-14466-1-1.html
1.Ambari现在处于一个什么样的状态?
2.利用Ambari如何扩展集群?
3.Ambari有哪些自定义命令?
4.Ambari 中 Service 之间是什么样的依赖关系?
5.什么是Ambari的 维护模式?
6.应用:如何快速搭建 Spark on YARN 的集群?



【Spark】RDD操作详解1——Transformation和Actions概况
http://www.aboutyun.com/thread-14522-1-1.html
1、Spark算子的作用是什么?
2、什么是Transformation和Actions?
3、算子分类有哪些?


为什么程序员也能成为伟大的CEO
http://www.aboutyun.com/thread-14512-1-1.html


【Spark Core】从作业提交到任务调度完整生命周期浅析
http://www.aboutyun.com/thread-14461-1-1.html
1.Spark作业提交到执行是一个怎样的过程?
2.Driver任务提交是一个怎样的过程?

3.作业从提交到任务调度经历了一个怎样的生命周期?



从Hadoop到Spark的架构实践
http://www.aboutyun.com/thread-14423-1-1.html




Spark Core源码分析: Spark任务模型
http://www.aboutyun.com/thread-14460-1-1.html
1.Task是如何实现的?
2.重要外部类有哪些?
3.进程模型与线程模型有哪些优劣势?



大数据的梦想与现实(上):大数据技术篇
http://www.aboutyun.com/thread-14502-1-1.html
1、传统BI的数据处理方式是怎样的?
2、大数据解决方案有哪几种?
3、大数据的市场行情如何?


HDFS Snapshot原理
http://www.aboutyun.com/thread-14495-1-1.html
1.快照的作用是什么?
2.HDFS Snapshot的原理是什么?



Spark与Flink:对比与分析
http://www.aboutyun.com/thread-14483-1-1.html
1.Spark 1.4有哪些特点?
2.Flink 0.9有哪些特点?
3.Spark与Flink分析对比是什么?



程序员,为什么千万不要重写代码?
http://www.aboutyun.com/thread-14482-1-1.html
1.为什么你觉得旧代码异常混乱?
2.新代码一定比旧代码好?
3.当你觉得眼前的旧代码很烂时,该怎么办?





学习大数据、云技术如何提高部署学习效率
http://www.aboutyun.com/thread-14575-1-1.html
1.如何避免反复部署集群?
2.快照的作用是什么?
3.缓存服务器能起到什么作用?


来自大数据的反思:需要你读懂的10个小故事
http://www.aboutyun.com/thread-14550-1-1.html


Twitter已经用Heron替换了Storm
http://www.aboutyun.com/thread-14532-1-1.html


腾讯蓝鲸数据平台之告警系统
http://www.aboutyun.com/thread-14529-1-1.html
1、数据平台告警系统采用什么监控工具监控哪些方面?
2、采用什么监控指标和策略?
3、不同的异常判断各有优缺点,总结并比较。




七牛是如何搞定每天500亿条日志的
http://www.aboutyun.com/thread-14563-1-1.html
1、Flume和Kafka使用要点有哪些?
2、数据离线和实时计算采用什么方法?
3、Flume+Kafka+Spark 结合起来是如何处理500亿条日志?




每个程序员和设计师必做的10项运动
http://www.aboutyun.com/thread-14578-1-1.html



李滔:搜狐基于Spark的新闻和广告推荐实战
http://www.aboutyun.com/thread-14577-1-1.html
1.如何建立用户兴趣标签?
2.如何对用户兴趣的评估?
3.什么是ctr预测?
4.计算新闻相似度是用什么算法?





问答:
HIVE查询实例和Shell去重(面试题)
http://www.aboutyun.com/thread-14552-1-1.html



【MapReduce】如何随机分配数据到Reducer?
http://www.aboutyun.com/thread-14525-1-1.html




已有(1)人评论

跳转到指定楼层
tang 发表于 2015-8-2 21:22:36
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条