about云每日一读汇总（第四篇2014.12.10）

本帖最后由 pig2 于 2014-12-31 00:20 编辑

about云每日一读汇总（第一篇）

about云每日一读汇总（第二篇）

about云每日一读汇总（第三篇2014.10.20）

about云2014年（去旧迎新，the last day）每日一读

每天进步一点点

总结过去10年的程序员生涯，给程序员一些总结性忠告
http://www.aboutyun.com/thread-10943-1-1.html

Hive HA使用说明及Hive使用HAProxy配置HA(高可用)
http://www.aboutyun.com/thread-10938-1-1.html
1.为什么会产生hive HA？
2.hive HA需要修改哪些配置？
3.hive如何启动及使用？

Mahout协同过滤框架Taste的源码分析(2)
http://www.aboutyun.com/thread-10936-1-1.html
1.如何使用MapReduce计算物品相似度？
2.如何使用MapReduce进行矩阵乘法？
3.如何使用Taste完成推荐？

Apache Spark源码走读之11 -- sql的解析与执行
http://www.aboutyun.com/thread-10931-1-1.html
１．SQL模块分析有几大难点？
２．Spark要很好的支持sql，要经历哪些过程？

Spark硬件配置推荐
http://www.aboutyun.com/thread-10930-1-1.html

新手指导：cloudera的hue 安装
http://www.aboutyun.com/thread-10934-1-1.html

Spark调优
http://www.aboutyun.com/thread-10929-1-1.html

１．通常对象访问的速度都很快，但是为什么还需要2-5x的空间来存储？

２．如何确定这些对象的内存开销并且如何进行调优？

Hadoop2.4的ResourceManager HA高可用配置
http://www.aboutyun.com/thread-10941-1-1.html
1.ResourceManager HA需要修改哪些配置？
2.如何强制切换HA？

资源：

HEAT部署hadoop集群案例
http://www.aboutyun.com/thread-10922-1-1.html

openstack与docker集成及heat部署hadoop集群
http://www.aboutyun.com/thread-10921-1-1.html

问答：

【求助】flume中source的event问题
http://www.aboutyun.com/thread-10925-1-1.html

新手hadoop如何入门？
http://www.aboutyun.com/thread-10928-1-1.html

Spark读取Hbase后转换重新写入Hbase其他表报错
http://www.aboutyun.com/thread-10932-1-1.html

Hadoop2.5.2环境搭建系统为64位，启动hdfs: ./sbin/start-dfs.sh报错
http://www.aboutyun.com/thread-10933-1-1.html

hadoop-2.6.0在64位系统编译问题
http://www.aboutyun.com/thread-10935-1-1.html

彻底弄清Hive安装过程中的几个疑问点
http://www.aboutyun.com/thread-10937-1-1.html

cinder云硬盘创建时的后台活动
http://www.aboutyun.com/thread-10939-1-1.html

一个关于region的比较基础的问题
http://www.aboutyun.com/thread-10940-1-1.html

如何查看zookeeper中存放的hbase的-ROOT-的位置信息
http://www.aboutyun.com/thread-10942-1-1.html

Glance Failed to upload image (HTTP 500) and the image status is killed
http://www.aboutyun.com/thread-10945-1-1.html

about云2014年12月30日每日一读

每天进步一点点

分析Hadoop YARN资源隔离机制
http://www.aboutyun.com/thread-10913-1-1.html
1.yarn进程中，你是否知道ResourceManager及NodeManager用来做什么的？
2.Contaienr包含哪些内容？
3.IO资源分为哪两种？

什么才是程序员的核心竞争力？
http://www.aboutyun.com/thread-10916-1-1.html
1.如何培养自己的自学能力？
2.你认为如何学习才能效率最高？
3.什么是能力？

hbase源码系列（十三）缓存机制MemStore与Block Cache
http://www.aboutyun.com/thread-10904-1-1.html

１．hbase和Region Server、Region是什么关系？

２．Meta表的块会不会一直被保存在MEMORY当中？

hadoop通过Configuration对象自定义配置文件
http://www.aboutyun.com/thread-10910-1-1.html
1.hadoop如何自定义配置文件？
2.你认为自定义配置文件能带来什么好处？
3.Configuraion允许通过哪两种方式设置key/value格式的属性？

程序员找不到开发工作的6大原因
http://www.aboutyun.com/thread-10900-1-1.html

1.你认为面试的时候，你该如何做?

2.你认为面试中，决定性因素是什么？

3.为什么不同的人，面试官会问不同的问题？

协同过滤原理与Mahout实现
http://www.aboutyun.com/thread-10905-1-1.html
1.协同过滤原理？
2.如何使用Mahout Taste?
3.如何在集群中实现？

Mahout协同过滤框架Taste的源码分析(1)
http://www.aboutyun.com/thread-10906-1-1.html
1.Mahout如何优化内存开销？
2.Taste如何实现基于用户的推荐？

Spark Streaming自定义Receivers
http://www.aboutyun.com/thread-10908-1-1.html
学习在Spark Streaming下如何自定义Receivers？

Spark Streaming编程指南
http://www.aboutyun.com/thread-10909-1-1.html
１．创建Dstream的时候有什么要注意的地方？
２．对于调优，可以从哪些方面考虑？

hadoop2（2.2）集群基准测试
http://www.aboutyun.com/thread-10919-1-1.html
1.如何测试集群性能？
2.如何测试整个MapReduce System？

Linux（CentOS、Ububtu）一键安装Openstack及其它参考文档汇总
http://www.aboutyun.com/thread-10920-1-1.html
1.安装前需要做哪些配置？
2.安装成功后，如何访问openstack？

资源：

openstack与docker集成及heat部署hadoop集群
http://www.aboutyun.com/thread-10921-1-1.html

HEAT部署hadoop集群案例
http://www.aboutyun.com/thread-10922-1-1.html

问答：

openstack的监控工具
http://www.aboutyun.com/thread-10902-1-1.html

【求助】大概配置集群的hosts时候，一般配置内网IP还是外网IP？
http://www.aboutyun.com/thread-10903-1-1.html

juno版本openstack中glance上传镜像失败求解
http://www.aboutyun.com/thread-10907-1-1.html

Connection to neutron failed: Maximum attempts reached
http://www.aboutyun.com/thread-10912-1-1.html

Openstack icehouse 实例中的系统无法通过dhcp获取ip问题
http://www.aboutyun.com/thread-10914-1-1.html

【求助】flume怎么进行监控？
http://www.aboutyun.com/thread-10915-1-1.html

关于Hive安装问题
http://www.aboutyun.com/thread-10917-1-1.html

hadoop2基准测试怎么测
http://www.aboutyun.com/thread-10918-1-1.html

about云2014年12月29日每日一读

每天进步一点点

storm系统入门
http://www.aboutyun.com/thread-10880-1-1.html
1.Storm是什么？
2.Storm集群组成包含哪些部分？
3.Storm包含哪些术语？
4.Stream Grouping定了什么？，有哪些Stream Grouping类型？

Storm应用系列之——Spout、Bolt API
http://www.aboutyun.com/thread-10877-1-1.html
1.Spout的最顶层抽象是哪个接口？
2.open方法在spout的作用是什么？
3.activate和deactivate含义是什么？

Storm应用系列之——Topology部署
http://www.aboutyun.com/thread-10878-1-1.html
1、Topology有哪两种提交部署方式？
2.本地提交和集群如何提交job？
3.本地提交和集群提交代码有什么不同？

Storm应用系列之——最基本的例子
http://www.aboutyun.com/thread-10879-1-1.html
1.collector.emit()方法与tuple什么关系？
2.Tuple中以List 的作用是什么？
3.如何建立Topology?

分布式系统的设计经验总结
http://www.aboutyun.com/thread-10881-1-1.html

apache kafka中topic级别配置
http://www.aboutyun.com/thread-10882-1-1.html

1.全局配置与topic级别的关系是什么？

2.你认为topic级别配置哪些比较有用？

hbase写数据如何（指定、分配）Region到（相应）哪个 RegionServer
http://www.aboutyun.com/thread-10885-1-1.html
1.在 Region 分配过程中，哪些对象起着重要作用？
2.如果有多个 region serve 存在， HBase 会不会把 root region 和 meta region 分配到一个RegionServer 上？
3.哪个类负责将 region 分配到 region server？

Hbase写数据，存数据，读数据的详细过程
http://www.aboutyun.com/thread-10886-1-1.html
1.Client写入需要哪些过程？
2.Hbase是如何读取数据的？

HBase查询一条数据的过程分析
http://www.aboutyun.com/thread-10887-1-1.html
1.HBase中的Client如何路由到正确的RegionServer?
2.client是如何找到相应的RegionServer的？
3.-ROOT-和.META.这两张在habse的作用是什么？

HBase源码分析：HTable put过程分析
http://www.aboutyun.com/thread-10890-1-1.html
1.hbase插入数据如何找到相应的RegionServer？
2.flushCommits什么情况下会发生？
3.如何获取每一个行对应HRegion所在位置？

最简单的JStorm例子分为4个步骤
http://www.aboutyun.com/thread-10891-1-1.html
1.如何写Topology？
2.JStorm例子，本文讲哪四个步骤？

阿里巴巴jstorm Ack 机制
http://www.aboutyun.com/thread-10892-1-1.html

1.Ack 机制的作用是什么？

2.如何使用ack机制？

3.如何关闭ack？

Chukwa-基于Hadoop的日志收集框架
http://www.aboutyun.com/thread-10893-1-1.html
1.Chukwa如何进行安装配置？
2.Chukwa如何收集日志并处理？

Spark(1.0.2)安装(CDH5.1.0)开发指南
http://www.aboutyun.com/thread-10894-1-1.html
1.Spark如何部署到yarn?
2.Spark如何基于Scala进行开发？

配置Hadoop与Hive使用LZO压缩
http://www.aboutyun.com/thread-10895-1-1.html
1.hadoop如何使用LZO?
2.hive如何使用LZO?

about云2014年最后一周经典回顾
http://www.aboutyun.com/thread-10897-1-1.html

资源：

数据挖掘中的十大算法（视频）
http://www.aboutyun.com/thread-10896-1-1.html

问答:

hbase如何确定一条新数据写入到哪个regionserver？
http://www.aboutyun.com/thread-10884-1-1.html

求助：neutron创建网络失败
http://www.aboutyun.com/thread-10888-1-1.html

storm的MessageID跟踪问题
http://www.aboutyun.com/thread-10889-1-1.html

about云2014年12月28日每日一读

每天进步一点点

apache kafka中topic级别配置
http://www.aboutyun.com/thread-10882-1-1.html

1.全局配置与topic级别的关系是什么？

2.你认为topic级别配置哪些比较有用？

分布式系统的设计经验总结
http://www.aboutyun.com/thread-10881-1-1.html

移动云计算在各个领域的应用
http://www.aboutyun.com/thread-10868-1-1.html

hbase源码系列（十）HLog与日志恢复
http://www.aboutyun.com/thread-10869-1-1.html
１．HLogKey的有哪五要素？
２．类似于snapshot，在zk里面建立一个splitWAL节点，在这个节点下面建立任务有什么不一样？

hbase源码系列（十一）Put、Delete在服务端是如何处理？
http://www.aboutyun.com/thread-10870-1-1.html
１．根据action的原子性来判断，原子性操作和非原子性操作有何区别？
２．Put和Delete里面的列族是否和Region持有的列族的定义相同？

hbase源码系列（十二）Get、Scan在服务端是如何处理？
http://www.aboutyun.com/thread-10871-1-1.html

１．如果joinedScanners不空的话，就new一个joinedHeap出来的成立条件是什么？

２．ScanQueryMatcher如何过滤已经被删除的KeyValue？

Scala从零开始：函数参数的传名调用（call-by-name）和传值调用（call-by-value）
http://www.aboutyun.com/thread-10864-1-1.html
1.Scala函数参数传值调用？
2.Scala函数参数传名调用？

Spark技术内幕：Master基于ZooKeeper的High Availability（HA）源码实现
http://www.aboutyun.com/thread-10862-1-1.html
1.Master如何根据启动参数决定不同重启策略？
2.CuratorFramework实现Zookeeper的高可用？

Scala从零开始：使用Intellij IDEA写hello world
http://www.aboutyun.com/thread-10861-1-1.html
1.Eclipse如何集成Scala开发插件进行开发？
2.如何使用Intellij IDEA进行开发？

hive-hwi-0.13.1图形界面配置
http://www.aboutyun.com/thread-10872-1-1.html
1.配置hive-hwi-0.13.1图形界面需要哪个包？
2.需要修改哪个配置？
3.如何启动hwi？

AWS Elastic MapReduce开始支持Hive 13
http://www.aboutyun.com/thread-10873-1-1.html
1、hive 13版本的新特性有哪些？

Kafka Java API 之Producer源码解析
http://www.aboutyun.com/thread-10874-1-1.html
1.Kafka提供了哪个类作为java producer的api?
2.Producer类哪两种发送方式，默认是那种方式？

Kafka Consumer及其监控
http://www.aboutyun.com/thread-10875-1-1.html
1.Kafka目前为java提供了哪两种consumer的API？
2.本文讲了Kafka 哪两种监控方式？

资源：

数据可视化之美中文版及英文版
http://www.aboutyun.com/thread-10859-1-1.html

问答

【已解决】swift stat失败
http://www.aboutyun.com/thread-10867-1-1.html

求高手分析下cloudera与hortonworks 的区别
http://www.aboutyun.com/thread-10876-1-1.html

about云2014年12月27日每日一读
每天进步一点点

机器学习领域的几种主要学习方式，如深度学习
http://www.aboutyun.com/thread-10858-1-1.html
1.机器学习领域有几种主要学习方式？
2.什么是监督式学习？
3.什么是非监督式学习？

老外对中国式App设计趋势的分析：中国移动应用设计趋势解读
http://www.aboutyun.com/thread-10857-1-1.html

CDH5版本升级汇总：（Cloudera Manager）CDH5.0.2升级CDH5.2.0
http://www.aboutyun.com/thread-10856-1-1.html
1.CDH5.0.2升级至CDH5.2.0有什么好处？
2.本文升级整体包含哪两个步骤？
3.升级后impala jdbc安全机制下不可用本文是如何解决的？

hbase源码系列（七）Snapshot的过程
http://www.aboutyun.com/thread-10846-1-1.html

１．为什么要做Snapshot？

２．在snapshotEnabledTable方法中在线的表是怎么备份的？

hbase源码系列（八）从Snapshot恢复表
http://www.aboutyun.com/thread-10847-1-1.html

１．恢复表之前先要对这个表做如何判断？

２．snapshot的region和现在的table的region逐个对比，有什么不同的情况？

hbase源码系列（九）StoreFile存储格式
http://www.aboutyun.com/thread-10849-1-1.html

１．打开文件的时候会加载哪些内容？

２．编码压缩方式是如何写进FileInfo里面的？

hadoop中的hive查询cdn访问日志指定时间段内url访问次数最多的前10位
http://www.aboutyun.com/thread-10848-1-1.html

Docker镜像并不安全
http://www.aboutyun.com/thread-10851-1-1.html
1.镜像从HTTPS服务器上下载下来，然后通过Docker daemon的流处理管道，这个管道为什么是不安全的？
2.Docker镜像不安全该如何解决？

CentOS 离线安装Cloudera Manager 5和CDH5(版本5.1.3) 详细文档
http://www.aboutyun.com/thread-10852-1-1.html
1.Cloudera Manager 如何实现离线安装？
2.Cloudera Manager 需要哪些步骤？
3.离线安装需要现在哪些相关内容？

Hive代码组织及架构简单介绍
http://www.aboutyun.com/thread-10853-1-1.html

Hadoop如何计算map数和reduce数
http://www.aboutyun.com/thread-10855-1-1.html
1、如何分析一下job的maptask数
2、如何计算input文件的split个数

Spark大师之路：使用maven编译Spark
http://www.aboutyun.com/thread-10842-1-1.html

Spark大师之路：Spark的配置系统
http://www.aboutyun.com/thread-10843-1-1.html

问答：

全分布式hbase启动报错
http://www.aboutyun.com/thread-10835-1-1.html

【求助】ClouderaManager外网访问后会出异常
http://www.aboutyun.com/thread-10836-1-1.html

关于hbase-demon.sh脚本ssh启动regionserver的一个疑问
http://www.aboutyun.com/thread-10837-1-1.html

有知道 hbase中的 lsm树和trie树分别是用来干嘛的么
http://www.aboutyun.com/thread-10850-1-1.html

资源：

数据可视化之美中文版及英文版
http://www.aboutyun.com/thread-10859-1-1.html

Pig安装与Pig Latin语言，应用案例视频下载
http://www.aboutyun.com/thread-10845-1-1.html

ELT kettle 视频教程
http://www.aboutyun.com/thread-10841-1-1.html

Hadoop大数据零基础高端实战培训系列配文本挖掘项目
http://www.aboutyun.com/thread-10839-1-1.html

Hadoop视频[共44集适合入门 MP4格式]
http://www.aboutyun.com/thread-10840-1-1.html

solr一套视频
http://www.aboutyun.com/thread-10830-1-1.html

hive介绍视频
http://www.aboutyun.com/thread-10831-1-1.html

about云2014年12月26日每日一读
每天进步一点点

乐视+微软：借力Azure布局海外，实现全球视频云服务
http://www.aboutyun.com/thread-10826-1-1.html

Hive未来两年的路线图
http://www.aboutyun.com/thread-10825-1-1.html
1、Hive将实现哪些关键特性？
2、Hive将获得哪些增强？

hbase源码系列（四）数据模型-表定义和列族定义的具体含义
http://www.aboutyun.com/thread-10800-1-1.html
１．hbase的表在hdfs上是怎么存储的？
２．KeyValue是怎么存储的？

hbase源码系列（五）Trie单词查找树
http://www.aboutyun.com/thread-10803-1-1.html

１．Trie树的原理是什么？

２．树里面有几种类型的数据结构？分别是什么？

hbase源码系列（六）HMaster启动过程
http://www.aboutyun.com/thread-10804-1-1.html

１．阻塞变成ActiveMaster的过程是怎样的？

２．region的分配工作是如何进行的？

hive：如何查看hive执行计划，调优hive执行
http://www.aboutyun.com/thread-10807-1-1.html
1.如何预先查看hive执行情况？
2.如何查看hive有多少job?

IT架构变革：企业移动化，任性需要什么资本
http://www.aboutyun.com/thread-10798-1-1.html

Spark1.2新特性介绍
http://www.aboutyun.com/thread-10797-1-1.html

1.在传大量数据的情况下，communication manager换成netty-based的实现了,实现这个功能有什么好处？

2.Spark SQL中缓存表一定要用cacheTable(“tableName”)这种形式，为什么？

Spark MLBase分布式机器学习系统入门：以MLlib实现Kmeans聚类算法
http://www.aboutyun.com/thread-10817-1-1.html
1.什么是MLBase?
2.MLbase机器学习算法的流程?
3.Scala实现KMeans算法?

Spark Streaming 结合FlumeNG使用实例
http://www.aboutyun.com/thread-10818-1-1.html
1.flume-ng与spark如何结合？
2.spark streaming如何与多种数据源结合？

SparkSQL配置和使用初探
http://www.aboutyun.com/thread-10820-1-1.html
1.SparkSQL的环境配置？
2.SparkSQL遇到问题及解决方案？

Spark、Shark集群安装部署及遇到的问题解决
http://www.aboutyun.com/thread-10822-1-1.html
1.Spark、Shark集群环境配置？
2.集群各种脚本写法？

Spark:Master High Availability（HA）高可用配置的2种实现
http://www.aboutyun.com/thread-10823-1-1.html
1.基于文件系统的单点恢复实现Spark集群高可用？
2.基于zookeeper的Standby Masters实现Spark集群高可用？

让并发和容错更容易：Akka示例教程
http://www.aboutyun.com/thread-10824-1-1.html
1、为什么要引入Akka?Akka能解决什么问题？
2、为了构建一个并发程序，除了深入到线程、锁和竞态条件之外没有别的选择呢？
3、Akka如何帮助并简化分布式并发应用的实现？

flume-ng 多节点集群示例
http://www.aboutyun.com/thread-10828-1-1.html
1.如何实现agent到collect的连接，并能向collect发送日志？
2.agent，collect是如何配置的？

深入浅出解析大数据平台架构(1)
http://www.aboutyun.com/thread-10815-1-1.html

深入浅出解析大数据平台架构(2)
http://www.aboutyun.com/thread-10816-1-1.html

问答：

机器学习、统计分析、数据挖掘、神经网络、人工智能、模式识别之间的关系是什么？
http://www.aboutyun.com/thread-10827-1-1.html

【求助】关于HIVE数据倾斜的问题
http://www.aboutyun.com/thread-10801-1-1.html

【求助】Spark配置Zookeeper模式HA后集群无法使用问题
http://www.aboutyun.com/thread-10808-1-1.html

【求助】关于CDH中AppMaster日志看不了
http://www.aboutyun.com/thread-10811-1-1.html

【求助】历史任务中查不到spark streaming的任务
http://www.aboutyun.com/thread-10813-1-1.html

【求助】关于flume向HDFS刷数据的问题
http://www.aboutyun.com/thread-10814-1-1.html

关于如何使用HDFS上的数据
http://www.aboutyun.com/thread-10812-1-1.html

about云2014年12月25日每日一读
每天进步一点点

Spark1.2新特性介绍
http://www.aboutyun.com/thread-10797-1-1.html

1.在传大量数据的情况下，communication manager换成netty-based的实现了,实现这个功能有什么好处？

2.Spark SQL中缓存表一定要用cacheTable(“tableName”)这种形式，为什么？

Twitter的百TB级Redis缓存实践
http://www.aboutyun.com/thread-10796-1-1.html
1.为什么使用Redis？
2.为什么使用Redis代替Memcache？
3.Redis添加Hybrid List可以带来什么好处?

数据挖掘入门——分词
http://www.aboutyun.com/thread-10795-1-1.html
1.如何才能让数据发挥最大价值？
2.分词的作用是什么？
3.如何让程序识别句子中的时间？比如“上午”、“下午2点”？

Spark 性能相关参数配置详解－Storage篇
http://www.aboutyun.com/thread-10794-1-1.html
1、如何根据实际场合对Spark进行配置优化？
2、Storage相关配置参数有哪些？

Ubuntu 14.10 下安装伪分布式HIVE-0.14.0
http://www.aboutyun.com/thread-10778-1-1.html
1.hive安装需要下载哪个包？
2.hive伪分布该如何配置？

HIVE 0.14.0安装配置
http://www.aboutyun.com/thread-10777-1-1.html
1.HIVE安装是否需要编译？
2.hive安装需要哪些步骤？
3.hive安装需要修改哪些配置？

Spark源码系列（九）Spark SQL初体验之解析过程详解
http://www.aboutyun.com/thread-10783-1-1.html

１．如何通过Parser把sql解析成一个LogicPlan？

２．child.execute()执行子节点的execute来返回数据的过程是怎样的？

hbase源码系列（三）Client如何找到正确的Region Server
http://www.aboutyun.com/thread-10788-1-1.html
１．hbase的两张元数据表查找过程是怎样的？
２．如何根据情况来构建Scan的StartKey？

使用Java编写并运行Spark应用程序
http://www.aboutyun.com/thread-10791-1-1.html
1、统计分析程序需要实现哪几个功能点？
2、要分析某网站的访问日志信息思路怎样？
3、怎样通过Web控制台来查看当前执行应用程序的状态信息？

Spark0.9分布式运行MLlib的二元分类算法
http://www.aboutyun.com/thread-10792-1-1.html
1、什么是MLlib？
2、什么方法默认执行L2正规化算法？
3、如何理解二元分类？

Spark0.9分布式运行MLlib的线性回归算法
http://www.aboutyun.com/thread-10793-1-1.html
1、什么是线性回归算法？
2、可用线性回归算法有哪些？
3、如何对拟合优度进行评估？

云游戏数据分析：云上游戏数据分析实践
http://www.aboutyun.com/thread-10766-1-1.html
1.游戏数据的特点主哪些个方面？
2.当前游戏行业数据分析的现状是什么？

Spark社区的圣诞礼物 : Spark Package
http://www.aboutyun.com/thread-10767-1-1.html
1.什么是Spark Package？
2.本文spark Package各自的作用是什么？

hbase源码系列（二）HTable 探秘
http://www.aboutyun.com/thread-10786-1-1.html

１．HTable内部是用什么来和后台通信的？

２．有哪些客户端调优的方法？

scribe、chukwa、kafka、flume日志系统对比
http://www.aboutyun.com/thread-10782-1-1.html

资源：

lucene视频教程
http://www.aboutyun.com/thread-10789-1-1.html

12月19日（北京站）分享嘉宾PPT
http://www.aboutyun.com/thread-10785-1-1.html

ubuntu 14.04.1安装openstack_juno
http://www.aboutyun.com/thread-10775-1-1.html

Linux下Eclipse编译和调试HIVE
http://www.aboutyun.com/thread-10776-1-1.html

问答：

【解决】HIVE如何执行？
http://www.aboutyun.com/thread-10768-1-1.html

Ceph云硬盘性能测试结果疑惑
http://www.aboutyun.com/thread-10770-1-1.html

关于hadoop 生成的日志文件
http://www.aboutyun.com/thread-10771-1-1.html

求教 storm 的Rebalance
http://www.aboutyun.com/thread-10772-1-1.html

【解决】HIVE转化成MapReduce的逻辑
http://www.aboutyun.com/thread-10773-1-1.html

【求助】关于对CPU的资源使用问题
http://www.aboutyun.com/thread-10779-1-1.html

【解决】关于Hive的Reduce数量的问题
http://www.aboutyun.com/thread-10781-1-1.html

yarn下nodemanager的识别问题
http://www.aboutyun.com/thread-10784-1-1.html

使用rpmbuild打包出现错误，求解
http://www.aboutyun.com/thread-10787-1-1.html

about云2014年12月24日每日一读
每天进步一点点

CDH5: 使用parcels配置lzo
http://www.aboutyun.com/thread-10748-1-1.html
1.Parcel 部署有哪些步骤？
2.如何使用parcels配置lzo，需要修改哪些配置？

计算Job运行时的CPU与内存平均利用率（MapReduce）
http://www.aboutyun.com/thread-10764-1-1.html
1.数据采集什么时候开始与结束？
2.如何获取运行task的JVM pid？

REST是什么？如何实现RESTful？
http://www.aboutyun.com/thread-10759-1-1.html
1、什么是REST？
2、开发人员可以轻松使用什么服务一起创建丰富的界面？
3、如何实现RESTful？

检测Python程序执行效率及内存和CPU使用的7种方法
http://www.aboutyun.com/thread-10760-1-1.html
1、如何使用装饰器来衡量函数执行时间？
2、通过怎样的配置，可了解到脚本中对象创建和删除操作的流程？
3、要知道函数被调用了多少次，可以使用什么模块？

大数据处理中基于概率的数据结构
http://www.aboutyun.com/thread-10761-1-1.html
1、对于big data经常需要做哪些查询和统计？
2、如何理解Frequency Estimation？
3、Membership Query的作用是什么？

IT人员——如何树立个人品牌
http://www.aboutyun.com/thread-10762-1-1.html

资源：

2014中国大数据技术大会30多位核心专家演讲PDF下载
http://www.aboutyun.com/thread-10753-1-1.html

问答：

Ceph云硬盘测试困惑
http://www.aboutyun.com/thread-10741-1-1.html

请教：主机浏览器无法访问虚拟机的Hadoop50070、50030
http://www.aboutyun.com/thread-10742-1-1.html

我想了解一下大家用什么Linux
http://www.aboutyun.com/thread-10743-1-1.html

【求助】CDH5.2中关于HIVE和Spark的配置问题
http://www.aboutyun.com/thread-10744-1-1.html

【求助】CDH5.2中，怎么没有TimeLine
http://www.aboutyun.com/thread-10745-1-1.html

关于mapreduce中启动时，指定日志文件的问题
http://www.aboutyun.com/thread-10750-1-1.html

大数据存储方案讨论
http://www.aboutyun.com/thread-10751-1-1.html

求助：Request returned failure status.HTTPInternalServerError (HTTP 500)
http://www.aboutyun.com/thread-10752-1-1.html

新人关于hbase的几个问题
http://www.aboutyun.com/thread-10754-1-1.html

大数据算法、数据模型设计及实施思路
http://www.aboutyun.com/thread-10755-1-1.html

云计算--OpenStack中glance上传镜像出现500 Internal Server Error
http://www.aboutyun.com/thread-10756-1-1.html

hbase 什么情况下触发split和major compact
http://www.aboutyun.com/thread-10757-1-1.html

【求助】Map输出的临时数据在本机的什么位置？
http://www.aboutyun.com/thread-10758-1-1.html

Hadoop1.x集群机制中NameNode宏机之后如何处理
http://www.aboutyun.com/thread-10763-1-1.html

about云2014年12月23日每日一读
每天进步一点点

（hadoop2.6）HDFS中的集中化缓存管理
http://www.aboutyun.com/thread-10735-1-1.html
1.HDFS集中化缓存管理具有哪些优势？
2.HDFS中的集中化缓存管理有哪些使用场景？
3.缓存管理有哪些命令？

Windows Azure入门教学系列 (二): 部署第一个Web Role程序
http://www.aboutyun.com/thread-10734-1-1.html
１．学习如何把该Web Role程序部署到云端

Windows Azure入门教学系列 (一): 创建第一个WebRole程序
http://www.aboutyun.com/thread-10732-1-1.html
１．如何在Visual Studio 2010中创建一个WebRole程序(C#语言)？

Oozie Shell Action(Oozie 使用shell) 配置及遇到的问题总结
http://www.aboutyun.com/thread-10729-1-1.html
1.Shell Action 不能运行哪些shell脚本？
2.Shell Action能用来完成什么事情？

使用 Puppet 在 Windows Azure 中配备 Linux 和 Windows 环境
http://www.aboutyun.com/thread-10730-1-1.html
１．微软开放技术的成果分为哪几部分？分别是什么？
２．如何管理虚拟网络？

Glance 源码分析(1) – 框架
http://www.aboutyun.com/thread-10737-1-1.html
1、 V1 和 V2的最大区别是什么？
2、apiv2app的流程是怎样的？
3、如何理解glance的API 框架？

Glance 源码分析(2) – 配置文件
http://www.aboutyun.com/thread-10738-1-1.html
1、 glance-api 会读取哪些配置文件？
2、glance 中的配置文件通过什么来调用的？
3、 python paste 模块如何使用？

Glance 源码分析(3) – WSGI 框架
http://www.aboutyun.com/thread-10739-1-1.html
1、什么是WSGI 框架？
2、OpenStack 大多数模块采用了怎样的方法来作为一个 HTTP RestFul API Server？
3、什么是工厂函数？

问答：
【解决】关于Yarn资源管理的问题
http://www.aboutyun.com/thread-10731-1-1.html

【解决】dfs.datanode.max.locked.memory 这个参数的作用
http://www.aboutyun.com/thread-10733-1-1.html

about云2014年12月22日每日一读
每天进步一点点

中国移动云计算探索与实践
http://www.aboutyun.com/thread-10726-1-1.html

1.移动互联网的发展与云计算应用有什么关系？

2.中国移动对云计算有何行动？

跟着实例学习ZooKeeper的用法：分布式锁
http://www.aboutyun.com/thread-10725-1-1.html
1.ZooKeeper recipes wiki定义了可协商的撤销机制，如何撤销mutex？
2.可以在多个线程中用同一个InterProcessMutex？为什么？

AWS系列之一亚马逊云服务概述
http://www.aboutyun.com/thread-10724-1-1.html
1.云计算如何提供服务？
2.亚马逊云服务由哪几部分组成？

Spark 独立部署模式
http://www.aboutyun.com/thread-10723-1-1.html

1.spark独立部署如何访问hadoop集群数据？
2.spark有哪些启动脚本？
3.如何手动启动集群？

Docker笔记--镜像中部署一个tomcat
http://www.aboutyun.com/thread-10722-1-1.html
1、怎样列出当前还在运行中的容器？
2、如何指定镜像来自哪个源创建？
3、如何把宿主机的端口映射给镜像？

Docker笔记---创建java镜像
http://www.aboutyun.com/thread-10721-1-1.html
1、如何对container进行同步？
2、怎样查看到已经新建的镜像？
3、如何运用docker？

一些 Docker 的技巧与秘诀
http://www.aboutyun.com/thread-10720-1-1.html
1、如何移除所有的容器和镜像？
2、作用不在 Shell 上运行命令？
3、Docker Inspect 结合 Go Templates 的好处？

hadoop2.X之HDFS集群管理：ReplicationMonitor
http://www.aboutyun.com/thread-10719-1-1.html
1、什么是ReplicationMonitor？
2、ReplicationMonitor在HDFS中的作用是什么？
3、在哪几种情况下会产生无效块？

HDinsight Storm介绍
http://www.aboutyun.com/thread-10712-1-1.html
1.什么是Azure HDInsight Storm？
2.如何在HDInsightStorm数据处理？

Spark MLlib - Decision Tree源码分析
http://www.aboutyun.com/thread-10711-1-1.html
1.org.apache.spark.mllib.tree.RandomForest.scala中RandomForest里面的train做了什么？
2.DecisionTree.findSplitsBins做了什么？

资源：
Mahout实践指南书籍分享
http://www.aboutyun.com/thread-10715-1-1.html

OpenStack 官网文档汇总邮件列表等
http://www.aboutyun.com/thread-10716-1-1.html

问答：
关于sparkstreaming的监听问题
http://www.aboutyun.com/thread-10717-1-1.html

使用hue 中的oozie 执行hive 任务
http://www.aboutyun.com/thread-10718-1-1.html

about云2014年12月21日每日一读
每天进步一点点

HDinsight Storm介绍
http://www.aboutyun.com/thread-10712-1-1.html
1.什么是Azure HDInsight Storm？
2.如何在HDInsightStorm数据处理？

Spark MLlib - Decision Tree源码分析
http://www.aboutyun.com/thread-10711-1-1.html
1.org.apache.spark.mllib.tree.RandomForest.scala中RandomForest里面的train做了什么？
2.DecisionTree.findSplitsBins做了什么？

OpenStack目标：解决实施中的瓶颈问题
http://www.aboutyun.com/thread-10704-1-1.html
1、企业如何从OpenStack架构中获益？
2、你如何看待OpenStack当前的发展？

NoSQL性能测试白皮书
http://www.aboutyun.com/thread-10706-1-1.html
1、什么是基准测试标准？
2、如何理解nosql和RDBMS的不同优劣势？
3、如何更好的运用nosql？

IT行业的职业规划：技术可作为切入点
http://www.aboutyun.com/thread-10707-1-1.html
1、你如何看待IT行业的职业发展方向？
2、IT行业和其他行业，有何不同？
3、你了解自己的职业规划是什么吗？

Azure云：大数据时代的机器学习平台
http://www.aboutyun.com/thread-10708-1-1.html

1.为什么传统数据挖掘方法无法继续胜任新的需求？

2.当前关于云计算的研究停留在哪个地步？

为OpenStack搭建高可用RabbitMQ集群
http://www.aboutyun.com/thread-10709-1-1.html

1.为什么需要RabbitMQ集群？

2.如何利用RabbitMQ镜像队列模式以及HAProxy搭建高可用消息队列集群？

Spark SQL 初探：使用大数据分析2000万数据
http://www.aboutyun.com/thread-10710-1-1.html

1.Spark与Hadoop MapReduce相比较有何优劣？

2.如何使用Spark SQL分析数据？

资源：

快速拥抱新技术【资源分享】
http://www.aboutyun.com/thread-10705-1-1.html

about云2014年12月20日每日一读
每天进步一点点

Spark 1.2 发布
http://www.aboutyun.com/thread-10697-1-1.html

Hermes与开源的Solr、ElasticSearch的不同
http://www.aboutyun.com/thread-10695-1-1.html
１．Solr、ES在大索引上存在什么问题？
２． Hermes在索引上发生了怎样的改进？

基于Hadoop SLA认证机制实现权限控制
http://www.aboutyun.com/thread-10691-1-1.html

１．对比Kerberos认证配置方式与SLA授权方式有何优劣？

２．配置SLA权限的基本格式是怎样的？

使用Storm处理事务型实时计算需求时的几处难点
http://www.aboutyun.com/thread-10693-1-1.html

１．持久化操作带来的难点是什么？

２．Storm处理事务性应用时是怎样来接收和处理数据的？

Apache Spark源码走读之7 -- Standalone部署方式分析
http://www.aboutyun.com/thread-10698-1-1.html
1、组成cluster的两大元素有哪些？
2、实现HA的原理是什么？
3、为什么Spark中没有直接使用zookeeper的api，而使用了curator？

Apache Spark源码走读之8 -- Spark on Yarn
http://www.aboutyun.com/thread-10699-1-1.html
1、如何实现Spark在Yarn平台上的部署？
2、如何理解spark在提交时，所做的资源申请是一次性完成的？
3、如何理解Spark Standalone和Spark on Yarn的区别？

Apache Spark源码走读之9 -- Spark源码编译
http://www.aboutyun.com/thread-10700-1-1.html
1.Spark编译需要哪些软件？
2.Spark编译命令是什么？
3.修改代码后，如何运行测试用例？

Apache Spark源码走读之10 -- 在YARN上运行SparkPi
http://www.aboutyun.com/thread-10701-1-1.html
1、如何直接将spark在yarn上面运行？
2、结合yarn，需要修改Hadoop哪些配置文件？
3、什么是SparkPi？

问答：

java.util.ConcurrentModificationException
http://www.aboutyun.com/thread-10688-1-1.html

vm的软启动和硬启动的作用是？
http://www.aboutyun.com/thread-10689-1-1.html

spark streaming 在yarn模式下，如何指定master
http://www.aboutyun.com/thread-10692-1-1.html

SparkStreaming获取hdfs数据问题
http://www.aboutyun.com/thread-10694-1-1.html

格式化namenode的问题
http://www.aboutyun.com/thread-10696-1-1.html

2014年12月19日每日一读
每天进步一点点

对互联网海量数据实时计算的理解
http://www.aboutyun.com/thread-10683-1-1.html

yum入门： CentOS yum 源的配置与使用
http://www.aboutyun.com/thread-10682-1-1.html
1.yum 的理念是什么？
2.yum 主要功能是什么？
3.如何配置本地yum?

Apache Spark源码走读之3-- Task运行期之函数调用关系分析
http://www.aboutyun.com/thread-10676-1-1.html
1、使用什么指令运行ocal-cluster模式？
2、TaskRunner中执行的task其业务逻辑是如何被调用到的？
3、如何理解堆栈输出？

Apache Spark源码走读之4 -- DStream实时流数据处理
http://www.aboutyun.com/thread-10677-1-1.html
1、流数据的特点是什么？
2、数据的存储有是被什么触发的？
3、如何理解StreamingContext构造函数的入参？

Apache Spark源码走读之5-- DStream处理的容错性分析
http://www.aboutyun.com/thread-10678-1-1.html
1、如何理解重启之后数据也会被再次处理？
2、数据处理过程的过程有哪些？
3、checkpoint的数据是通过什么真正写入到hdfs中的？

Apache Spark源码走读之6-- 存储子系统分析
http://www.aboutyun.com/thread-10680-1-1.html
1、本地读取和远程读取有什么区别？
2、什么是TachyonStore？
3、什么是楔子？

资源：

全面系统的介绍OpenStack的生态链和相关技术
http://www.aboutyun.com/thread-10684-1-1.html

openstack的neutron介绍
http://www.aboutyun.com/thread-10685-1-1.html

问答：

hadoop2集群怎么规划
http://www.aboutyun.com/thread-10671-1-1.html

运行一个map/reduce程序不成功，请教大虾！
http://www.aboutyun.com/thread-10672-1-1.html

kerberos认证的hadoopdatanode起不来
http://www.aboutyun.com/thread-10674-1-1.html

Topolog发布后的问题求助
http://www.aboutyun.com/thread-10679-1-1.html

hive 整合hbase的问题
http://www.aboutyun.com/thread-10681-1-1.html

2014年12月18日每日一读
每天进步一点点

探寻从HDFS到Spark的高效数据通道：以小文件输入为案例
http://www.aboutyun.com/thread-10668-1-1.html

1.LDA的有哪两个实际使用场景？

2.对节点集合进行排序本文说了哪两种方法？

面对新语言和跳槽，程序员如何保持技术优势？
http://www.aboutyun.com/thread-10667-1-1.html

[Python]网络爬虫（11）(12)
http://www.aboutyun.com/thread-10666-1-1.html
问题1：如果想要批量下载大量的内容，该怎么做？
问题2：把网站装进爬虫里，总共分几步？

MapReduce生成HFile文件,再使用BulkLoad导入HBase中(完全分布式运行)
http://www.aboutyun.com/thread-10665-1-1.html
1.hbase的BulkLoad有哪些优点？
2.hbase的BulkLoad这种方式有哪些限制？

Neutron中的网络I/O虚拟化
http://www.aboutyun.com/thread-10659-1-1.html
1、如何理解虚拟化的网络？
2、在openstack中运行Snabb需要哪些插件？
3、如何理解目前的neutron技术原理？

OpenStack Performance Testing——Rally入门
http://www.aboutyun.com/thread-10660-1-1.html
1、什么是Rally？
2、如何使用OpenStack与Rally结合？
3、如何使用rally进行测试？

OpenStack Tempest入门介绍
http://www.aboutyun.com/thread-10661-1-1.html
1、什么是OpenStack Tempest？
2、安装Tempest需要哪些组件？
3、如何使用Tempest进行测试？

Ubuntu 14.04下单节点Ceph安装
http://www.aboutyun.com/thread-10662-1-1.html
1、一个ceph cluster至少需要哪些节点？
2、ceph和cinder有何不同？
3、Ceph如何与Cinder集成？

[Python]网络爬虫（九）（十）
http://www.aboutyun.com/thread-10664-1-1.html
问题1：用Python写的百度贴吧的网络爬虫的原理及过程？
问题2：一个爬虫的诞生的全过程是怎样的？

资源：

storm+kafka环境搭建视频
http://www.aboutyun.com/thread-10657-1-1.html

storm集群搭建八视频及相关包下载
http://www.aboutyun.com/thread-10658-1-1.html

问答：

storm执行过程中出现EndOfStreamException
http://www.aboutyun.com/thread-10655-1-1.html

求解hadoop2的伪分布环境搭建的配置文件
http://www.aboutyun.com/thread-10656-1-1.html

关于BulkLoad支持多表入库
http://www.aboutyun.com/thread-10663-1-1.html

2014年12月17日每日一读
每天进步一点点

Spark 配置指南
http://www.aboutyun.com/thread-10652-1-1.html
1.Spark可以在哪三个地方配置系统？
2.如何实现动态加载Spark属性？

机器学习经典算法详解及Python实现---Logistic回归（LR）分类器
http://www.aboutyun.com/thread-10650-1-1.html
1.梯度下降法如何求解Logistic回归？
2.什么是Logistic回归（LR）分类器？
3.什么是随机梯度算法？

机器学习经典算法详解及Python实现--K近邻(KNN)算法
http://www.aboutyun.com/thread-10651-1-1.html
1.KNN算法的过程是什么？
2.KNN算法有哪些需要注意的地方？

Spark SQL 源码分析之Physical Plan 到 RDD的具体实现（5）
http://www.aboutyun.com/thread-10642-1-1.html
1、如何理解 Spark Plan的4种操作类型？
2、joinRow的实现本质是什么？
3、什么是ShuffleHashJoin？

Spark SQL Catalyst源码分析之UDF（6）
http://www.aboutyun.com/thread-10643-1-1.html
1、Spark SQL有哪些函数类型？
2、如何理解Spark目前的UDF原理？
3、如何编写一个spark udf？

Spark SQL 源码分析之 In-Memory Columnar Storage 之 cache table（7）
http://www.aboutyun.com/thread-10644-1-1.html
1、Spark SQL 的内存数据是如何组织的？
2、如何优化内存数据库的存储结构？
3、优化Spark SQL 和 Shark 有哪些方法？

Spark SQL 源码分析之 In-Memory Columnar Storage 之 in-memory query（8）
http://www.aboutyun.com/thread-10645-1-1.html
1、 in-memory 有哪些典型技术？
2、如何理解InMemoryColumnarTableScan在Catalyst中的作用？
3、怎样理解ColumnAccessor的类？

资源;

openstack管理和测试
http://www.aboutyun.com/thread-10646-1-1.html

OpenStack公有云案例分享下载
http://www.aboutyun.com/thread-10653-1-1.html

问答：

发现namenode的日志文件edits文件好多
http://www.aboutyun.com/thread-10640-1-1.html

nova中如何创建浮动IP池，目前API和CLI里面只有查询floating-ip-pools的方法
http://www.aboutyun.com/thread-10641-1-1.html

求助namenode的edits日志文件无限增长怎么回事
http://www.aboutyun.com/thread-10649-1-1.html

about云2014年12月16日每日一读

技术走向管理一些深度思考
http://www.aboutyun.com/thread-10630-1-1.html

云计算、物联网的意义在于收集和处理数据，软件行业需集中发展IaaS和建设高速宽带
http://www.aboutyun.com/thread-10632-1-1.html

[Python]网络爬虫（一）、（二）
http://www.aboutyun.com/thread-10626-1-1.html
问题1:URL由哪几部分组成?
问题2:如何区分URL和URI？

[Python]网络爬虫（三）、（四）
http://www.aboutyun.com/thread-10628-1-1.html
问题1：HTTP状态码通常分为哪几种类型？
问题2：如何实现用特定处理器获取URLs？

[Python]网络爬虫（五）、（六）
http://www.aboutyun.com/thread-10627-1-1.html
问题1：哪些header 要特别留意，因为服务器会针对这些 header 做检查？
问题2：使用 urllib2 时如何看到传输的数据包内容？

Spark SQL Catalyst源码分析之Analyzer（1）
http://www.aboutyun.com/thread-10622-1-1.html
1、Analyzer在Spark SQL里起到了什么作用？
2、如何理解流程是实例化一个SimpleAnalyzer？
3、Spark是怎样接受用户输入sql的？

Spark SQL Catalyst源码分析之TreeNode Library（2）
http://www.aboutyun.com/thread-10623-1-1.html
1、TreeNode有哪三种形态？
2、Spark SQL的Catalyst框架核心有哪些类库？
3、TreeNode的核心方法是什么？

Spark SQL Catalyst源码分析之Optimizer（3）
http://www.aboutyun.com/thread-10624-1-1.html
1、什么是Optimizer？
2、优化的主要策略总结起来是哪几大类？
3、如何理解Optimizer的工作方式？

Spark SQL Catalyst源码分析之Physical Plan（4）
http://www.aboutyun.com/thread-10625-1-1.html
1、什么是Physical Plan？
2、如何理解Optimizer工作流程？
3、 TakeOrdered的作用是什么？

资源：
openstack 实战指南
http://www.aboutyun.com/thread-10633-1-1.html

问答：

luna连接hadoop
http://www.aboutyun.com/thread-10631-1-1.html

每天有50G左右的数据文件，存入HBASE中做查询的方案
http://www.aboutyun.com/thread-10634-1-1.html

每天都要做动态分区插入的动作吗
http://www.aboutyun.com/thread-10636-1-1.html

2014年12月15日每日一读
每天进步一点点

实现Hadoop数据加密是未来企业必须考虑的问题
http://www.aboutyun.com/thread-10612-1-1.html
1.hadoop将来会面临什么方面安全问题？
2.这些安全问题，会带来什么影响？
3.如何解决面临的这些安全问题？

Hadoop安全访问控制开源组件:Apache Sentry 1.4版本介绍及下载
http://www.aboutyun.com/thread-10614-1-1.html
1.为了对正确的用户和应用程序提供精确的访问级别，Sentry提供了什么安全模式？
2.Apache Sentry 1.4版本做了哪些改进？

编程实现对OpenStack的访问
http://www.aboutyun.com/thread-10618-1-1.html
1、这样通过编程访问OpenStack？
2、如何使用urllib2访问Keystone？
3、如何使用novaclient访问Nova？

OpenStack之虚机热迁移
http://www.aboutyun.com/thread-10617-1-1.html
1、如何设置NFS共享存储？
2、多次迁移造成compute报错，怎么解决？
3、迁移VM，需要哪些步骤？

Ceilometer项目源码分析----ceilometer-collector服务的初始化和启动
http://www.aboutyun.com/thread-10621-1-1.html

问题1:服务ceilometer-collector的初始化操作实现了哪些操作？

问题2:服务ceilometer-agent-notification的启动操作实现了什么任务？

Ceilometer项目源码分析----ceilometer-agent-notification服务的初始化和启动
http://www.aboutyun.com/thread-10620-1-1.html

问题1:服务ceilometer-agent-notification的初始化操作实现了哪些操作？

问题2:服务ceilometer-agent-notification的启动操作实现了哪些任务？

Ceilometer项目源码分析----ceilometer-agent-compute服务的初始化和启动
http://www.aboutyun.com/thread-10619-1-1.html
问题1:服务ceilometer-agent-compute的初始化操作实现了哪些内容的操作？
问题2:服务ceilometer-agent-compute的启动操作周期性地实现了哪些任务？

负载均衡杂谈
http://www.aboutyun.com/thread-10616-1-1.html
1、如何理解纵向扩展和横向扩展？
2、什么是负载均衡？
3、基于DNS的负载均衡有哪些优劣势？

分布式服务框架的4项特性
http://www.aboutyun.com/thread-10615-1-1.html
1、服务本身存在哪些扩展性问题？
2、典型的服务的远程调用有哪些？
3、如何对服务之间的调度及生命周期进行管理？

问答：

关于noSql文件系统元数据加密
http://www.aboutyun.com/thread-10611-1-1.html

2014年12月14日每日一读
每天进步一点点

Spark SQL Catalyst源码分析之SqlParser
http://www.aboutyun.com/thread-10608-1-1.html
1.SqlParser的类图包含了哪些信息？
2.Spark Catalyst 是如何将Sql解析成Unresolved逻辑计划的？

openstack( juno)安装之外网网卡配置含义解释
http://www.aboutyun.com/thread-10598-1-1.html
1.openstack安装网卡配置中manual的含义什么？
2.$IFACE的作用是什么？

Ceilometer项目源码分析----ceilometer-alarm-notifier服务的初始化和启动
http://www.aboutyun.com/thread-10600-1-1.html

问题1:组件服务ceilometer-alarm-notifier所实现的功能是什么？如何实现的？

问题2:当报警器被触发之后,方法notify_alarm实现报警器触发后的发送通知操作的具体哪些方法?

Ceilometer项目源码分析----ceilometer-alarm-evaluator服务的初始化和启动
http://www.aboutyun.com/thread-10602-1-1.html
问题1:类SingletonAlarmService的初始化操作完成了哪些内容？
问题2:PartitionedAlarmService类初始化操作完成了哪些内容？

Ceilometer项目源码分析----ceilometer-agent-central服务的初始化和启动
http://www.aboutyun.com/thread-10605-1-1.html
问题1:服务ceilometer-agent-central的初始化操作主要实现了哪些内容的操作？
问题2:服务ceilometer-agent-central的启动操作周期性地实现什么任务？

谁是容器中的“战斗机”？Docker与Chef、LXC等容器对比
http://www.aboutyun.com/thread-10601-1-1.html
1、你是如何学习Docker的？
2、为什么要用 Docker 来替代 LXC/Ansible ?
2、你如何理解docker和Vagrant技术结合带来的优势？

Google和微软是如何支持Docker的
http://www.aboutyun.com/thread-10603-1-1.html
1、目前，docker的企业支持主要有哪些？
2、你如何看待docker的市场应用？
3、Kubernetes 的发展对docker有什么意义？

优雅地部署Docker
http://www.aboutyun.com/thread-10604-1-1.html
1、vagrant和docker有什么不同？
2、你如何理解docker的开发环境结构？
3、docker有什么特点？

5分钟弄懂Docker！
http://www.aboutyun.com/thread-10606-1-1.html
1、为什么要用容器？
2、容器和VM有什么不一样？

资源：

数据可视化指南及数据挖掘概念与技术
http://www.aboutyun.com/thread-10609-1-1.html

问答：

Hadoop启动异常：UnregisteredDatanodeException
http://www.aboutyun.com/thread-10599-1-1.html

2014年12月13日每日一读
每天进步一点点

hadoop2.6.0汇总：新增功能最新编译 32位、64位安装、源码包、API下载及部署文档
http://www.aboutyun.com/thread-10593-1-1.html

面试hadoop可能被问到的问题，附部分参考答案
http://www.aboutyun.com/thread-10595-1-1.html

Mahout算法调用展示平台2.1
http://www.aboutyun.com/thread-10591-1-1.html
1、如何使用Web工程调用Mahout的相关算法？
2、Mahout的相关算法有哪些？
3、推荐算法使用item的什么？

Hadoop集群搭建完毕后，如何测试是否正常工作？
http://www.aboutyun.com/thread-10590-1-1.html
1、你如何解决Hadoop问题的？
2、Hadoop集群搭建的重点问题有哪些？
3、Hadoop集群搭建完毕后，如何测试是否正常工作？

如何开始编程语言？给初学者的几个小贴士
http://www.aboutyun.com/thread-10588-1-1.html
1、你是如何学习编程语言的？
2、什么是“拖拽”编程？

Ceilometer项目源码分析----ceilometer报警器状态评估方式
http://www.aboutyun.com/thread-10587-1-1.html

问题1:联合报警器状态评估具体是怎样实现的？

问题2:如果想要制定合适的联合报警器评估方法，要如何改写相关方法？

Ceilometer项目源码分析----ceilometer分布式报警系统的具体实现
http://www.aboutyun.com/thread-10594-1-1.html
问题1:如何实现对报警器的分配操作？
问题2:拥有主控权的partition，会根据不同的情况实现哪些不同形式的报警器分配操作？

Ceilometer项目源码分析----ceilometer报警器服务的实现概览
http://www.aboutyun.com/thread-10586-1-1.html

问题1: ceilometer的报警系统包括哪些内容？

问题2:/ceilometer/alarm/service.py中的类是如何发挥其重要作用的？

资源：

hadoop大数据平台应用案例详细分析(5案例概述)及大数据时代预见的新思维
http://www.aboutyun.com/thread-10596-1-1.html

问答：
菜鸟求助hadoop2.5.1 使用put命令提示连接失败
http://www.aboutyun.com/thread-10583-1-1.html

horizon 运行run_tests.sh抛出
http://www.aboutyun.com/thread-10584-1-1.html

openstack安装是否可以使用32位机器安装部署
http://www.aboutyun.com/thread-10585-1-1.html

为何Name or service not knownstname？
http://www.aboutyun.com/thread-10589-1-1.html

2014年12月12日每日一读
每天进步一点点

2014中国大数据行业大调查：开发者究竟需要什么？你该如何抓住这次IT革命
http://www.aboutyun.com/thread-10573-1-1.html
1.通过本文的调查，对大数据平台有需求的公司中规模都是多少人？
2.目前企业对大数据的投入达到什么程度？
3.大数据仍然只在少数公司的生产环境投入使用的原因是什么？

扩展：
4.思考面对大数据，你该如何学习和抓住这次机遇？

lucene(全文搜索)_建立索引_根据关键字全文搜索_源码下载
http://www.aboutyun.com/thread-10567-1-1.html

使用Mirantis提供的免费开发版学习OpenStack
http://www.aboutyun.com/thread-10577-1-1.html
1、什么是Mirantis OpenStack Express开发版？
2、Mirantis提供了哪些免费教程？

如果决定使用Docker，是否有必要同时使用OpenStack？
http://www.aboutyun.com/thread-10578-1-1.html
1、什么是流程框架？
2、KVM虚拟机管理程序和Docker容器有什么不同？
3、将流程框架与Docker共同使用的优势是什么？

OpenStack 更新
http://www.aboutyun.com/thread-10580-1-1.html
1、你如何看待OpenStack的软件和硬件发展？
2、 OpenStack有哪两大用得炉火纯青的技术基石？
3、openstack有哪些性能挑战？

Twitter Storm之ZooKeeper中的目录结构介绍
http://www.aboutyun.com/thread-10566-1-1.html
1.-/assignments目录的作用是什么？
2.-/{topology-id} 这个用来做什么？

Ceilometer项目源码分析----ceilometer项目源码结构分析
http://www.aboutyun.com/thread-10570-1-1.html
问题1:什么是ceilometer?它的服务组件都有哪些？
问题2:ceilometer监控数据的采集机制是怎样的？

搭建hadoop2.6.0 HA及YARN HA
http://www.aboutyun.com/thread-10572-1-1.html
1.hadoop2.x哪两种HDFS HA的解决方案？
2.本文采用的哪种HA方式，HA是如何配置的？

资源：
涂子沛《正在到来的数据革命：大数据》及大数据时代的历史机遇-产业变革与数据科学
http://www.aboutyun.com/thread-10575-1-1.html

问答：

hadoop不能格式化HDFS问题
http://www.aboutyun.com/thread-10579-1-1.html

Unable to load native-hadoop library for your platform... using builtin-java
http://www.aboutyun.com/thread-10574-1-1.html

pig执行完之后，正确输出，但是最后还有一大截ipc连接问题
http://www.aboutyun.com/thread-10568-1-1.html

2014年12月11日每日一读
每天进步一点点

hadoop MapReduce - 从作业、任务（task）、管理员角度调优
http://www.aboutyun.com/thread-10557-1-1.html
1.Combiner的作用是什么？
2.作业级别参数如何调优？
3.任务及管理员级别有哪些可以调优？

hadoop 2.6.0单节点-伪分布式模式安装
http://www.aboutyun.com/thread-10554-1-1.html

hbase启动、停止、单节点启动等脚本作用分析
http://www.aboutyun.com/thread-10548-1-1.html
1.hbase-config.sh的作用是什么？
2.hbase-daemons.sh的作用是什么？
3.通过哪个脚本获取backup-masters机器列表？

Php操作Redis安装测试经验总结
http://www.aboutyun.com/thread-10553-1-1.html
1.Redis如何安装的？
2.php如何操作Redis的？

数据抓取：新浪微博数据解析
http://www.aboutyun.com/thread-10552-1-1.html

深入浅出Docker（二）：Docker命令行探秘
http://www.aboutyun.com/thread-10556-1-1.html
1、如何快速掌握Docker命令行？
2、如何登录Hub服务？
3、你如何理解docker的应用？

深入浅出Docker（三）：Docker开源之路
http://www.aboutyun.com/thread-10559-1-1.html
1、docker有哪些维护社区？
2、为什么说Docker的开源之路可以说是开源项目的最佳实践？
3、如何看待Docker的商业化利用？

深入浅出Docker（四）：Docker的集成测试部署之道
http://www.aboutyun.com/thread-10560-1-1.html
1、如何快速搭建生产环境的应用场景？
2、如何管理单台的docker服务器？
3、什么是敏捷开发？

深入浅出Docker（五）：基于Fig搭建开发环境
http://www.aboutyun.com/thread-10561-1-1.html
1、如何理解使用fig的fig.yml文件来定义所有的环境？
2、如何用命令自动清理Fig？
3、如何让我们基于Docker的开发环境事半功倍？

云计算小米向左阿里向右
http://www.aboutyun.com/thread-10562-1-1.html

恰到好处联想为何在此时发力云计算？
http://www.aboutyun.com/thread-10563-1-1.html

问答：

请问如何写脚本，删除hbase中的某张表
http://www.aboutyun.com/thread-10546-1-1.html

菜鸟求助eclipse连接hadoop的问题
http://www.aboutyun.com/thread-10547-1-1.html

Hadoop、HBase、ElasticSearch、Storm、Kafka、Spark
http://www.aboutyun.com/thread-10549-1-1.html

hdfs 内存增加
http://www.aboutyun.com/thread-10550-1-1.html

请问，如何调整map slot和reduce slot数目？使得最优？
http://www.aboutyun.com/thread-10555-1-1.html

资源：

浙江大学译美国白宫”大数据“白皮书
http://www.aboutyun.com/thread-10558-1-1.html

2014年12月10日每日一读
每天进步一点点

Spark 开发指南（版本spark1.1.1）
http://www.aboutyun.com/thread-10531-1-1.html
1.Spark中RDD是什么？
2.Spark支持哪两种类型的共享变量？
3.如何将一些Spark的类和隐式转换导入到程序中？
4.Spark Scala API读取数据，除了支持文本文件，还支持什么格式？
5.RDD有哪种操作？
6.spark有哪些通用转换和动作？
7.spark中如果RDD的任一分区丢失了，spark是如何处理的？

Spark 快速入门（版本spark1.1.1）
http://www.aboutyun.com/thread-10530-1-1.html
1.spark RDD的transformation和action的作用是什么？
2.spark RDD的transformation和action能够如何组合？

Django与Horizon
http://www.aboutyun.com/thread-10525-1-1.html
问题1:如何创建并且运行一个简易Blog？
问题2:如何在eclipse中调试horizon?

通过源码运行Swift
http://www.aboutyun.com/thread-10524-1-1.html
问题1:一致性哈希算法，其核心思想是什么？
问题2:如何对swift源码进行配置，并将其运行起来？

Hadoop RPC通信Client客户端的流程分析
http://www.aboutyun.com/thread-10532-1-1.html
1、Hadoop的RPC的通信与其他系统的RPC有哪些不一样？
2、Client本身的执行流程是怎样的？
3、如何学习Hadoop RPC？

Scala中Stream的应用场景及其实现原理
http://www.aboutyun.com/thread-10533-1-1.html
1、你如何理解Scala中Stream的应用场景？
2、有哪些知识点帮助Stream完成工作？
3、如何连起来构成一个Stream？

Swift编程语言
http://www.aboutyun.com/thread-10535-1-1.html
1、什么是Swift 1.0？
2、Swift不支持哪些知识点？
3、Swift最具杀伤力的5个特性有哪些？

深入解析Docker背后的namespace技术
http://www.aboutyun.com/thread-10536-1-1.html
1、如何理解namespace是Linux系统的底层概念？
2、什么是IPC Namespace？
3、如何使多个namespace协同来创建容器？

java面试之大数据
http://www.aboutyun.com/thread-10522-1-1.html

大数据面试题
http://www.aboutyun.com/thread-10521-1-1.html

问答：
如果我想在openstack上安装centos 6.5..可我的文件格式是iso的，哪位大神知道
http://www.aboutyun.com/thread-10520-1-1.html

pig两张表字段相同取出不同的值
http://www.aboutyun.com/thread-10523-1-1.html

storm出现EndOfStreamException: Unable to read additional data from client ses
http://www.aboutyun.com/thread-10526-1-1.html

就是三台集群的storm，在工作时只有其中一台的storm supervsior 的work在工作
http://www.aboutyun.com/thread-10527-1-1.html

关于setQuota的使用，试了半天也没看出来啥效果
http://www.aboutyun.com/thread-10537-1-1.html

数据分析的项目
http://www.aboutyun.com/thread-10538-1-1.html