about云2016年每周经典回顾汇总【第四篇】

about云每周经典回顾汇总

 about云2015年每周经典回顾汇【第二篇】

about云2016年每周经典回顾汇总【第三篇】

2016年about云12月第04周经典帖子总结

部署kafka常见问答
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20591
1、如何对Kafka Broker上持久化的数据进行加密
2、Kafka是否支持跨数据中心的可用性
3、Kafka支持哪些类型的数据转换
4、Kafka支持哪些类型的数据转换
5、如何通过Kafka发送大消息或者超大负荷量？
6、Kafka是否支持MQTT或JMS协议？

Dubbo入门：一个分布式服务框架
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20612
1. Dubbo是什么？
2. Dubbo能做什么？
3.dubbo的架构包含哪些内容？
4.dubbo如何使用？

利用SparkStreaming监控hdfs目录，实现实时wordCount计算
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20583

1.怎样创建StreamingContext?

2.怎样Spark Streaming处理数据?

3.怎样解决从checkpoint目录读取应用信息，无法初始化ShuffleDStream导致的出错?

利用可视化方法选择机器学习算法
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20601
1、如何判断选择初始模型？
2、使用哪种模型来拟合数据？
3、如何获取免费样本数据集？
4、可视化图表有哪些？

SQL on Hadoop性能瓶颈点分析及解决方法总结
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20631

1. CPU、网络、硬盘等在在Hadoop系统进行SQL运算时负责的工作有哪些？

2. 在Hadoop集群中提升SQL的执行性能需要注意哪几点？

3. 如何在SQL中减少数据访问？

4. 如何在SQL中返回更少的数据？

5. 如何在SQL中减少交互次数？

6. 如何在SQL中减少数据库服务器?

资源：

银行客户画像应用
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20606

数据挖掘：概念与技术（第3版）
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20592

CDH5.8.0安装文档
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20586

问答：

glance上传镜像提示Invalid OpenStack Identity credentials.
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20611

kafka很迷惑，请高手指点！
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20593

2016年about云12月第03周经典帖子总结

kafka怎么样将用户定义的时间转化为集群内部的offset
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20563
1. kafka根据timestamp来得到offset的原理是什么？
2. timestamp为-1和-2分别表示什么意思？
3. timestamp和offset的对应关系是如何存储的？
4. 如何寻找最近的一个满足 timestamp < target_timestamp 的 index？

Oozie运用实战
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20537
1、Oozie如何安装配置？
2、如何自定义实现workflow？
3、如何实现shell action
4、如何简单实现DAG图？
5、oozie的coordinator如何基于时间或者数据调度的workflow？

sparkStreaming 连接数据库遇到的问题和解决方法
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20555
1. 在使用destream.foreachrdd 连接数据库时经常出现的错误时什么？
2. 如何解决上面的错误？

netty绑定端口及服务启动源码分析
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20546
1、我们为什么使用netty？
2、netty是如何绑定端口？
3、netty如何启动服务？
4、netty有哪些核心组件？

资源：

CDH-的Cloudera-Manager免费与收费版的对比表
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20540

SPARK-大数据处理引擎(初级)
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20565

SCALA下划线应用场景
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20548

《golang 在京东列表页的实践》
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20557

ebay构建开源分布式实时预警平台实践
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20539

华为Docker进阶与实战
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20566

Doing 数据科学
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20547

2016年about云12月第02周经典帖子总结

HBase数据模型特性及表设计思路
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20485
1、如何理解HBase分布式nosql数据库？
2、HBase数据模型如何理解？
3、HBase的表设计中需要注意哪些问题？
4、如何设计几种表结构？
5、HBase关键特性有哪些？

深入了解京东商品搜索引擎的架构
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20466

1.京东商品搜索引擎的整体架构是怎样的?

2.京东搜索索引服务系统分为哪几个阶段?

3.京东基于内存和线程池的搜索服务遇到哪些瓶颈，怎样优化?

数据分析师知识结构体系整理
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20498
1. 如何进行数据采集？
2. 采集到的数据如何存储？
3. 如何提取数据？
4. 如何进行数据挖掘？
5. 如何进行数据分析？
6. 数据展现形式是什么？
7. 数据的应用价值在哪？

使用spark实现max/min/mean/topN等经典mapreduce问题
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20507
1.  使用spark如何实现最大值最小值问题？
2.  使用spark如何实现平均值问题？
3.  使用spark如何实现topN问题？

storm定时的三种方式及tick详解
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20502
1.tick是什么功能？
2.如何指定某个bolt每隔一段时间做一些操作？
3.如何实现Topology中的每个bolt都每隔一段时间做一些操作？

Hadoop-Impala让分区最优化的方法
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20474
1、什么时候使用分区表?
2、在Impala的SQL语法，分区影响哪些语句？
3、静态和动态分区子句什么区别？
4、分区的子目录是什么权限？
5、什么是分区精简？
6、如何检查分区修剪对于查询的有效性？
7、检查是否需要对查询进行分区修剪？
8、什么SQL构造分区修剪工作？
9、如何动态分区修剪？
10、如何选择分区键列
11、分区有哪些不同文件格式？
12、如何管理分区?

资源：

Elasticsearch之kibana中文指南
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20511

JAVA并发编程实践（电子工业出版社）
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20499

Spark大数据中文分词统计Scala语言工程源码
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20476

基于FlumeKafkaSpark-的分布式日志流处理系统的设计与实现
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20487

Spark Summit East 2016 PPT【40文档下载】
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20465

问答：

求救！！！HBASE报错！！！！
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20491

2016年about云12月第01周经典帖子总结

数据分析入门需要了解的知识总结
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20400

1.什么是数据分析?

2.数据分析的目的是什么?

3.数据分析的步骤?

HBase读性能优化策略：包括客户端、服务端及列族设计优化
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20412
1、读请求延迟较大存在在哪些场景？
2、scan缓存是否设置合理？
3、get请求是否可以使用批量请求？
4、请求是否可以显示指定列族或者列？
5、离线批量读取请求是否设置禁止缓存？
6、读请求是否均衡？
7、 BlockCache是否设置合理？
8、HFile文件是否太多？
9、 Compaction是否消耗系统资源过多？
10、 Bloomfilter是否设置？是否设置合理？
11、 Short-Circuit Local Read功能是否开启？
12、 Hedged Read功能是否开启？
13、数据本地率是否太低？

spark开发基础之Scala详解apply方法
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20423
1.什么情况下调用apply方法？
2.apply你认为有哪些作用？
3.方法调用属于apply什么功能？

Spark Job调度方式及资源分配策略介绍
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20419
1、如何理解在应用程序间、程序内调度？
2、集群的资源分配有哪些方式？
3、资源分配策略有哪些？
4、如何配置调度池属性？

资源：

数据挖掘在电信行业手册
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20444

Scala语言规范
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20434

魅族莫涵宇-魅族大数据平台架构实践
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20422

大数据核心技术与应用论坛—Hadoop与ElasticSearch的融合—卢亿雷
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20410

华为云服务大数据解决方案
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20399

问答：

hiveserver2启动不了，急
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20397

2016年about云11月第04周经典帖子总结

spark开发基础之Scala快餐：开发环境Intellij IDEA 快捷键整理【收藏备查】
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20380&extra=
1.如何设置断点调试Scala？
2.如何注释Scala？
3.如何格式化代码？
4.本文讲了哪些技巧？

Linux中搭建通过docker搭建hadoop分布式集群教程
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20378&extra=

1. 启动docker可能出现哪些问题？如何解决？

2. 如何基于现有镜像创建新的镜像？

3. 搭建hadoop集群的步骤有哪些？

4. 如何设置ssh免密码登录？

5. 需要修改那些配置文件？

6. 如何判断集群正常启动了？

7. 如何解决重启集群后配置好的固定ip消失问题？

使用机器学习算法和大数据工具集来预测已知的心脏疾病(附源码)

http://www.aboutyun.com/forum.php?mod=viewthread&tid=20364&extra=

1. 使用什么样的数据集来进行预测？
2. 使用哪些工具与技术去实现预测系统？
3. 如何对预测系统进行设计架构？
4. 如何对训练集数据进行分析？
5. 如何构造模型对象并进行实际预测？
6. 对于这个预测系统有什么缺点？

大数据批处理及流处理框架汇总及对比

http://www.aboutyun.com/forum.php?mod=viewthread&tid=20357&extra=

1、大数据处理框架是什么？
2、如何理解批处理系统？
3、各框架系统的优势与局限有哪些？
4、各框架流处理系统、批处理模式有哪些特性？

Scala构建并行机器学习系统

http://www.aboutyun.com/forum.php?mod=viewthread&tid=20350&extra=

1、为什么使用Scala构建机器学习系统？
2、一个计算工作流需要哪些步骤？
3、使用训练数据进行分析的过程如何处理？

全自动安装基于newton的openstack

http://www.aboutyun.com/forum.php?mod=viewthread&tid=20340&extra=

1.节点操作系统安装方法?

2.怎样安装controller节点？

3.这样安装computer节点？

谈大数据及机器学习和人工智能带来的影响？

http://www.aboutyun.com/forum.php?mod=viewthread&tid=20333&extra=

1.不同规模的数据项目怎样选择合适的算法?

2.如何成为一名大数据工作者？

3.怎么看待机器学习和人工智能给人类带来的影响？

资源：

HBase集群应用和优化经验-九翎

http://www.aboutyun.com/forum.php?mod=viewthread&tid=20377&extra=

老外nosql（Redis）视频2,3,4,5：redis基础|管理配置及构建

http://www.aboutyun.com/forum.php?mod=viewthread&tid=20366&extra=

老外nosql（Redis）视频1：redis介绍

http://www.aboutyun.com/forum.php?mod=viewthread&tid=20361&extra=

Spark平台在电信运营商的应用实践

http://www.aboutyun.com/forum.php?mod=viewthread&tid=20354&extra=

spark开发基础之从Scala快餐序言

http://www.aboutyun.com/forum.php?mod=viewthread&tid=20335&extra=

2016中国软件开发者白皮书

http://www.aboutyun.com/forum.php?mod=viewthread&tid=20334&extra=

问答：

[CDH 5.2] HDFS 中的namenode启动不了

http://www.aboutyun.com/forum.php?mod=viewthread&tid=20341&extra=

2016年about云11月第03周经典帖子总结

开发环境中[IDEA]调试Spark SQL及遇到问题解决办法
http://www.aboutyun.com/thread-20266-1-1.html

1.为什么IDEA连着把spark-1.4.1的源码都编译了?
2.怎样把hive-site.xml文件"送"给IEDA？

3.怎样设置设置IEDA的JVM参数？

深度学习5种框架介绍包括官网，优缺点等

http://www.aboutyun.com/thread-20305-1-1.html

1.PaddlePaddle是什么？
2.TensorFlow的亮点是什么？有哪些优点和缺点？
3.本文介绍了哪些深度学习框架？

京东用大数据的方法解决【物流】建配送站的问题

http://www.aboutyun.com/thread-20295-1-1.html

1、大数据如何转化为智慧系统？
2、如何理解京东大数据平台架构？
3、如何构建智慧物流系统？

RDD详解及在Spark中的地位和作用

http://www.aboutyun.com/thread-20282-1-1.html

1、RDD是什么？
2、为什么产生RDD？
3、RDD在spark是什么地位？
4、RDD在spark说是什么作用？
5、如何操作RDD？

如何通过mapreduce 分析各种类型(word,pdf等)数字的文档

http://www.aboutyun.com/thread-20273-1-1.html

1.什么是Jaql?

2.什么是Tika？

3.怎样创建并使用Jaql模块？

资源：

田毅-Spark开发及本地环境搭建指南

http://www.aboutyun.com/thread-20313-1-1.html

about云spark开发基础之Scala快餐

http://www.aboutyun.com/thread-20303-1-1.html

万象大数据应用实例

http://www.aboutyun.com/thread-20298-1-1.html

智慧城市顶层设计

http://www.aboutyun.com/thread-20287-1-1.html

基于Spark的用户上网WAP日志分析

http://www.aboutyun.com/thread-20272-1-1.html

openstack M版中文安装文档

http://www.aboutyun.com/thread-20283-1-1.html

问答：

idea调试Spark--sparksql

http://www.aboutyun.com/thread-20264-1-1.html

SparkSql会生成很多的小文件，怎么解决哦？

http://www.aboutyun.com/thread-20271-1-1.html

2016年about云11月第02周经典帖子总结

数据挖掘就业解答及相关说明
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20199&extra=
1.数据挖掘主要是做算法还是做应用？分别都要求什么？
2.北上广以外的普通公司用的多吗？待遇如何？
3.和前端后端程序员比有什么区别？有什么优缺点？
4.目前在学习机器学习，如果想找数据挖掘方面的工作应该学习哪些内容？
5.hadoop,hive之类的需要学习吗？

HBase RegionServer宕机恢复三部曲
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20207&extra=

1.HBase的故障恢复有哪三种不同模式？
2.HBase日志切分方法？
3.Distributed Log Replay解决了哪些问题？

如何使用Spark Streaming+ES构建App异常监控平台（以美团为例）
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20209&extra=
1. 为什么要选择Spark Streaming和Elasticsearch？
2. 如何解决异常重启和升级重导等问题带来的稳定性问题？
3. 为解决低延迟问题，需要在输入端和输出端做什么处理？
4. Elasticsearch在实时分析平台的优势是什么？
5. 如何提高整个平台的可扩展性？

无监督式机器学习之聚类分析及Autoencoder应用方向介绍
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20222&extra=
1、什么是无监督式机器学习？
2、聚类分析的流程有哪些？
3、什么是Autoencoder算法？

spark开发基础之从关键字、函数入门Scala
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20223&extra=
1.apply的作用是什么？
2.yield什么情况下使用？
3.partition如何使用？

Spark 日志解析示例包括运行、输出结果、源代码
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20238&extra=
1.本文分析的日志格式什么样的？
2.如何通过代码实现的？
3.分析网页计分例子如何实现的？

将 Spark Streaming + Kafka direct 的 offset 存入Zookeeper并重用
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20244&extra=
1. 使用Direct API时为什么需要见offset保存到Zookeeper中？
2. 如何将offset存入到Zookeeper中？
3. 如何解决Zookeeper中offset过期问题？

资源：

谁说菜鸟不会数据分析-(完整)
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20206&extra=

Python 之 django-1-8入门
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20211&extra=

中国智慧城市大数据应用市场研究白皮书
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20225&extra=

spark开发基础之Scala资源汇总
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20233&extra=

移劢大数据平台架构实践
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20239&extra=

算法之道
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20250&extra=

大数据岗位的面试总结【六个公司】
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20249&extra=

问答：

intellij idea开发的spark应用spark-submit提交正常运行，直接在idea提交有问题
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20251&extra=

携程Storm实时大数据平台是如何实现的及遇到问题总结
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20187
1.为什么要做实时数据平台?
2.需要怎样的实时数据平台?
3.如何实现实时数据平台?
4.实现实时数据平台遇到了哪些问题？

大数据架构师必读：大数据开源技术产生演进过程及背景介绍
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20176
1. 何为小数据处理？
2. 在大数据的浪潮中Hadoop 为何能够崛起？
3. 在Hadoop 显露出许多缺点时，我们该如何架构大数据系统？
4. 未来大数据架构的趋势是什么样的？

淘宝大数据平台发展的三个阶段介绍
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20160&extra=
1、淘宝网数据仓库平台发展阶段有哪些？
2、如何理解天网调度系统架构？
3、如何理解云梯数据仓库、数据同步架构？
4、孔明灯解决方案重点流程有哪些？

一元一次线性方程的MapReduce实现
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20140&extra=

1.怎样打乱数据?

2.怎样实现一元一次线性回归?

3.怎样验证结果?

基于Spark的数据挖掘环境搭建
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20138&extra=

1.怎样配置hadoop插件?

2.怎样配置spark插件?

3.怎样配置scala插件?

机器学习有哪些通用框架？
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20148&extra=
1、有哪些标签类型？
2、哪些指标可以评价一个框架的好坏？
3、特征有哪些类型？
4、如何选择好的模型？

资源:

集体智慧编程中文版【机器学习】
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20188&extra=

精通 Apache Spark【英文版】
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20179&extra=

Storm技术内幕与大数据实践
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20163&extra=

学习openstack网络Neutron【openstack推荐书】
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20154&extra=&ordertype=1

spark之Scala-入门手册
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20143&extra=

问答：
mapreduce报错 java.net.ConnectException: Connection refused
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20153&extra=

2016年about云10月第04周经典帖子总结

图数据分析在Spark生态系统的使用
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20080
1、如何定义图数据?
2、图数据分析与传统数据的处理有哪些不同之处？
3、图数据分析是如何促进大数据和预测分析?
4、NoSQL图数据库、图数据查询、图数据分析和图数据可视化这四种图数据相关的概念吗?
5、在哪些受欢迎的用例数据处理中，图数据处理是更好解决的方案?
6、Spark GraphX程序库实现中还有哪些缺失特性?

基于 Spark 如何构建一个文本情感分析系统
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20067

1. 什么是文本情感分析？

2. 为什么要采用Spark？

3. 基于 Spark 如何构建文本情感分析系统？

4. 如何文本分类正确率？

Hbase架构及设计实践
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20060
1. NOSQL是如何产生的以及Hbase 在NOSQL中的地位如何？
2. Hbase框架是如何架构出来的？
3. Hbase 是如何检索一条数据以及检索时间复杂度是多少？
4. 如何设计 Hbase 数据库？
5. 还有哪些HBase调优小技巧？

网易云对象存储方案和应用场景介绍
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20052
1、对象存储应用场景有哪些？
2、网易对象存储核心是什么？
3、DFS分布式文件系统哪些特性？
4、网易NOS系统架构提供哪些服务？

ElasticSearch Java API 之索引管理【版本2.4.1】
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20042
1.ElasticSearch如何实现管理索引的？
2.IndicesAdminClient定义了几种prepareXXX()方法作为创建请求的入口点?
3.类型存在API的作用是什么？
4.如何创建复杂索引？
5.如何关闭打开索引？
6.如何创建索引的别名？

rpm安装CDH方法介绍：以CDH-5.3.2为例
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20037

1.什么是cloudera manager?

2.Hadoop的适用场景与不适用场景?

3.怎样通过cloudera manager安装Hadoop?

资源：

深度学习【英文】
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20064

中国医药电商大数据分析报告
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20061

Scala编程指南第三版（2016）【英文】
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20054

Sqoop开发者指南
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20043

学习Ceph【英文版】
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20038

问答：

hive 查看数据是不是连续重复的数据
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20068

如何用spark某些字段的回车去除
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20056

sqoop执行导入导出不执行mapreduce
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20044

2016年about云09月第01-03周经典帖子总结

HDFS集群磁盘数据倾斜不均衡的解决方案
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19959

1. HDFS集群磁盘不均衡会造成哪些问题？

2. 解决HDFS集群磁盘不平衡的方案有哪些？

3. 如何选择解决方案？

大数据架构师必备技能：几种常见的NoSQL建模技术
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19969

1.NoSQL数据建模有哪些注意事项?

2.NoSQL数据建模的基本原则有哪些?

3.NoSQL可以实现哪些建模技术?

Redis内存优化及持久化机制
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19966
1、Redis 常用数据类型有哪些？
2、有哪些常用内存优化手段与参数设置？
3、Redis 的持久化机制有哪些？如何设置？

shipyard-Docker的web图形化工具介绍及部署
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19962
1.Shipyard的作用是什么？
2.Shipyard本文介绍哪两个概念？
3.Shipyard搭建包含哪些过程？

spark入门（2.0.1版本）：概述，下载，编译，运行环境及实例运行
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19981
1.spark下载方式有哪些？
2.spark可以运行在哪些系统？
3.spark支持哪些语言？
4.如何运行spark各种语言版本例子？

大数据架构师必读：金融机构应用大数据4案例分析
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19896
1.大数据无法转化为“大价值”的原因是什么？
2.四个案例分别介绍了什么内容？
3.本人认为金融机构在大数据利用上存在哪两个重要节点？

十一：人生的一些思考及工作经历总结
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19956

Kafka源码分析Producer读取Metadata的数据结构及Metadata2种更新机制介绍
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19917
1. 什么是多线程异步发送模型？
2. Metadata的线程安全性如何实现？
3. Metadata的数据结构是什么？
4. producer如何读取Metadata？
5. Sender的如何创建?
6. Sender poll()如何更新Metadata？
7. Metadata有哪2种更新机制?
8. 什么是Metadata失效检测?
9. Metadata有哪些其他的更新策略？

面试的方法论（工作20年）
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19939

1.面试问题的根源是什么?

2.面试的时候怎样进行自我介绍?

3.面试的过程有哪几个阶段?

[大数据之Spark]——Transformations转换入门经典实例
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19985

大龄程序员保值的5个方向指引
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20010

资源：
JVM调优总结
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20002

数据挖掘技术及应用【500页ppt最全理论及实践】
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19895

Apache Spark 的设计与实现
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20021

coursera上最新伊利诺伊大学的大数据视频和华盛顿大学的Hadoop教学视频
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19998

20160814北京睿数互动互联网精准投放平台解决方案
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19992

可视化数据【书籍】
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19967

刘奇-豌豆荚分布式redis的设计与实现终稿
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19920

问答：

啊，要疯了折腾了一个星期shipyard还是不成功。求大神帮帮忙
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20026

2016年about云09月第03-04周经典帖子总结

30岁找份程序员的工作
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19863

Apache Hadoop 3.0.0-alpha1版发布做了哪些改进
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19809
1.hadoop3.x必须使用哪个版本的jdk?
2.hadoop3.x是否可以配置5个namenode？
3.hadoop除了可以使用swift，还可以使用什么文件系统？
4.hadoop为何要更改一些端口？

使用Elasticsearch构建电商搜索平台实践案例
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19829
1、电商数据系统主要类型有哪些？
2、互联网商用搜索通常会遇到哪些问题？
3、如何实现搜索引擎架构？
4、为什么我们选择Kafka？
5、ES性能如何进行优化？

编写Linux shell脚本八条经验总结
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19822
1.shell 脚本的第一行有几种写法，哪种更好一些？
2.set -e 和 set -x的作用是什么？
3.不适用local会遇到什么问题？
4.trap使用场景是什么？

如何基于分布式环境构建一个数据回放的无人驾驶模拟平台
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19813

1. 什么是无人驾驶模拟技术？
2. 无人驾驶汽车模拟器是什么？它的作用是啥？会面临哪些挑战？
3. ROS作在整个系统中担任什么样的角色？
4. 怎么理解ROSBAG？
5. Spark在整个系统中担任什么样的角色？
6. 如何解决Spark本身不支持多媒体数据读取的问题？
7. ROSBAG如何缓存数据至内存？如何读取内存中的缓存数据？

Spark Sql介绍及实际遇到的问题
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19794
1、什么是DataFrames？
2、什么是DataFrames Schema？
3、Spark 1.2 Sql踩过的坑有哪些？

spark入门基础知识常见问答整理汇总
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19768

1.Spark是什么？

2.什么是Spark Streaming？

3.Spark作为计算框架的优势是什么？

程序员要投资的那些事
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19815

keystone验证流程
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19860

ElasticSearch优化技巧3：总结机器设置及索引过程
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19844

Hadoop 3.0.0-alpha1发布
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19774

资源：
Java内存管理问题案例分享【追风堂】
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19824

机器学习实战
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19811

数据仓库和数据挖掘的OLAP技术(浙大-王灿)
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19800

KETTLE使用自己总结的Kettle使用方法和成果说明
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19780

Hbase深入理解【追风堂】
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19825

Apache Hadoop 3.0.0-alpha1版发布做了哪些改进
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19855

函数式与RDD
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19862

中国电信在大数据领域上的探索与创新
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19861

Pantaho Kettle使用PDI构建开源ETL解决方案_完整版【书籍】
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19856

数据模型资源手册卷1
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19835

数据模型资源手册卷2
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19836

统计思维：程序员数学之概率统计
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19812

使用spark构建，处理和分析 large-scale graphs【Apache Spark Graph Processing】
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19799

2016年about云09月第02周经典帖子总结

Spark之Stage详解【专题】
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19724
1.什么是spark stage？
2.stage如何划分？
3.Spark 多个Stage执行是串行执行的么？

ElasticSearch优化技巧总结
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19748
1. 如何优化集群节点的配置？
2. 机器内存为什么需要预留一半给Lucene用？
3. 给ES内存配置是不是越大越好呢？
4. Swapping为什么会是性能的瓶颈？

Spark MLlib之 KMeans聚类算法详解
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19745
1.什么是Spark MLlib ？
2.Spark MLlib 分为哪些类？
3.KMeans算法的基本思想是什么？
4.Spark Mllib KMeans源码包含哪些内容？

如何在Spark sql上扩展自己的插件？----spark开源项目spark-avro
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19741

JobControl设计原理及JobControl类深入剖析
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19740
1.什么是贝叶斯分类？
2.JobControl的设计原理是什么？
3.Job类是如何设计的？
4.JobControl类如何深入剖析？

Spark任务中Stage划分算法及Task任务本地性算法原理
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19729
1、Spark Job Stage划分算法有哪些？
2、Task最佳计算位置算法如何理解？
3、Task任务本地算法运用场景有哪些？

为什么程序员普遍都比较难沟通？该如何改变提高自己
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19725

资源：
Spark Scala入门手册
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19742

spark介绍及SPARKSQL应用
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19743

聚类算法---以K-means算法实例
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19752

Hadoop-MapReduce短作业执行性能优化
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19720

数据算法英文
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19750

写好spark jobs的技巧【英文】
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19733

Octopus（大章鱼）：基于R语言的跨平台大数据机器学习与数据分析系统-南京大学-黄宜华
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19732

提高spark写效率文档【英文】
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19721

问答：

spark查询不了hive的orc格式的表
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19723

关于hive2.1.0的动态分区，做insert的性能问题
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19722

2016年about云09月第01周经典帖子总结

kafka学习线路指导入门：包括理论、部署、实战知识汇总整理
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19665

spark分布式编程之全局变量专题【共享变量】
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19652
1.spark共享变量的作用是什么？
2.什么情况下使用共享变量？
3.如何在程序中使用共享变量？
4.广播变量源码包含哪些内容？

Spark OOM专题总结
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19677
1.本文认为spark oom分为哪两种情况？
2.Spark在一个Executor中的内存分为哪三块？
3.内存溢出解决方法本文提出了哪些解决方法？

关于Hive优化的四种方法总结
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19664
1、Hive整体架构优化点有哪些？
2、如何在MR阶段进行优化？
3、Hive在SQL中如何优化？
4、Hive框架平台中如何优化？

通过Kafka将数据从关系型数据库实时数据流导入到HDFS的Hive表中
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19653
1.Hive 1.2.1，Flume 1.6 以及 Kafka 0.9是否兼容？
2.实现Hadoop实时数据导入本文使用了几步？
3.通过Kafka将数据从关系型数据库实时数据流导入到HDFS的Hive表，你认为是否还有其它思路？

我是如何学习数据分析的
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19690

资源：
MongoDB实战
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19674

hbase性能和可靠性增强【ebay】
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19654

Hive存储格式简析
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19655

大数据分析的未来【英文】
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19659

透过WordCount案例快速理解SparkStreaming工作原理分享
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19688

hadoop and pig【Twitter】
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19658

问答：

spark streaming进行累加的方法有哪些？
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19647

JobControl日志显示问题
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19646