分享

about云2016年每周经典回顾汇总【第四篇】

xuanxufeng 发表于 2016-9-4 17:24:38 [显示全部楼层] 回帖奖励 阅读模式 关闭右栏 13 24522



about云每周经典回顾汇总

about云2015年每周经典回顾汇【第二篇】



about云2016年每周经典回顾汇总【第三篇】


2016年about云12月第04周经典帖子总结

部署kafka常见问答
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20591
1、如何对Kafka Broker上持久化的数据进行加密
2、Kafka是否支持跨数据中心的可用性
3、Kafka支持哪些类型的数据转换
4、Kafka支持哪些类型的数据转换
5、如何通过Kafka发送大消息或者超大负荷量?
6、Kafka是否支持MQTT或JMS协议?



Dubbo入门:一个分布式服务框架
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20612
1. Dubbo是什么?
2. Dubbo能做什么?
3.dubbo的架构包含哪些内容?
4.dubbo如何使用?



利用SparkStreaming监控hdfs目录,实现实时wordCount计算
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20583
1.怎样创建StreamingContext?
2.怎样Spark Streaming处理数据?
3.怎样解决从checkpoint目录读取应用信息,无法初始化ShuffleDStream导致的出错?



利用可视化方法选择机器学习算法
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20601
1、如何判断选择初始模型?
2、使用哪种模型来拟合数据?
3、如何获取免费样本数据集?
4、可视化图表有哪些?



SQL on Hadoop性能瓶颈点分析及解决方法总结
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20631

1. CPU、网络、硬盘等在在Hadoop系统进行SQL运算时负责的工作有哪些?

2. 在Hadoop集群中提升SQL的执行性能需要注意哪几点?

3. 如何在SQL中减少数据访问?

4. 如何在SQL中返回更少的数据?

5. 如何在SQL中减少交互次数?

6. 如何在SQL中减少数据库服务器?





资源:

银行客户画像应用
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20606


数据挖掘:概念与技术(第3版)
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20592


CDH5.8.0安装文档
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20586



问答:

glance上传镜像提示Invalid OpenStack Identity credentials.
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20611


kafka很迷惑,请高手指点!
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20593





2016年about云12月第03周经典帖子总结


kafka怎么样将用户定义的时间转化为集群内部的offset
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20563
1. kafka根据timestamp来得到offset的原理是什么?
2. timestamp为-1和-2分别表示什么意思?
3. timestamp和offset的对应关系是如何存储的?
4. 如何寻找最近的一个满足 timestamp < target_timestamp 的 index?




Oozie运用实战
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20537
1、Oozie如何安装配置?
2、如何自定义实现workflow?
3、如何实现shell action
4、如何简单实现DAG图?
5、oozie的coordinator如何基于时间或者数据调度的workflow?




sparkStreaming 连接数据库遇到的问题和解决方法
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20555
1. 在使用destream.foreachrdd 连接数据库时经常出现的错误时什么?
2. 如何解决上面的错误?



netty绑定端口及服务启动源码分析
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20546
1、我们为什么使用netty?
2、netty是如何绑定端口?
3、netty如何启动服务?
4、netty有哪些核心组件?



资源:

CDH-的Cloudera-Manager免费与收费版的对比表
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20540



SPARK-大数据处理引擎(初级)
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20565


SCALA下划线应用场景
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20548



《golang 在京东列表页的实践》
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20557


ebay构建开源分布式实时预警平台实践
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20539


华为Docker进阶与实战
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20566


Doing 数据科学
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20547






2016年about云12月第02周经典帖子总结

HBase数据模型特性及表设计思路
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20485
1、如何理解HBase分布式nosql数据库?
2、HBase数据模型如何理解?
3、HBase的表设计中需要注意哪些问题?
4、如何设计几种表结构?
5、HBase关键特性有哪些?




深入了解京东商品搜索引擎的架构
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20466
1.京东商品搜索引擎的整体架构是怎样的?
2.京东搜索索引服务系统分为哪几个阶段?
3.京东基于内存和线程池的搜索服务遇到哪些瓶颈,怎样优化?



数据分析师知识结构体系整理
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20498
1. 如何进行数据采集?
2. 采集到的数据如何存储?
3. 如何提取数据?
4. 如何进行数据挖掘?
5. 如何进行数据分析?
6. 数据展现形式是什么?
7. 数据的应用价值在哪?


使用spark实现max/min/mean/topN等经典mapreduce问题
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20507
1.  使用spark如何实现最大值最小值问题?
2.  使用spark如何实现平均值问题?
3.  使用spark如何实现topN问题?



storm定时的三种方式及tick详解
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20502
1.tick是什么功能?
2.如何指定某个bolt每隔一段时间做一些操作?
3.如何实现Topology中的每个bolt都每隔一段时间做一些操作?



Hadoop-Impala让分区最优化的方法
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20474
1、什么时候使用分区表?
2、在Impala的SQL语法,分区影响哪些语句?
3、静态和动态分区子句什么区别?
4、分区的子目录是什么权限?
5、什么是分区精简?
6、如何检查分区修剪对于查询的有效性?
7、检查是否需要对查询进行分区修剪?
8、什么SQL构造分区修剪工作?
9、如何动态分区修剪?
10、如何选择分区键列
11、分区有哪些不同文件格式?
12、如何管理分区?





资源:

Elasticsearch之kibana中文指南
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20511


JAVA并发编程实践(电子工业出版社)
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20499


Spark大数据中文分词统计Scala语言工程源码
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20476




基于FlumeKafkaSpark-的分布式日志流处理系统的设计与实现
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20487


Spark Summit East 2016 PPT【40文档下载】
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20465



问答:

求救!!!HBASE报错!!!!
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20491






2016年about云12月第01周经典帖子总结

数据分析入门需要了解的知识总结
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20400
1.什么是数据分析?
2.数据分析的目的是什么?
3.数据分析的步骤?




HBase读性能优化策略:包括客户端、服务端及列族设计优化
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20412
1、读请求延迟较大存在在哪些场景?
2、scan缓存是否设置合理?
3、get请求是否可以使用批量请求?

4、请求是否可以显示指定列族或者列?

5、离线批量读取请求是否设置禁止缓存?

6、读请求是否均衡?

7、 BlockCache是否设置合理?

8、HFile文件是否太多?

9、 Compaction是否消耗系统资源过多?

10、 Bloomfilter是否设置?是否设置合理?

11、 Short-Circuit Local Read功能是否开启?

12、 Hedged Read功能是否开启?

13、数据本地率是否太低?



spark开发基础之Scala详解apply方法
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20423
1.什么情况下调用apply方法?
2.apply你认为有哪些作用?
3.方法调用属于apply什么功能?


Spark Job调度方式及资源分配策略介绍
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20419
1、如何理解在应用程序间、程序内调度?
2、集群的资源分配有哪些方式?
3、资源分配策略有哪些?
4、如何配置调度池属性?






资源:

数据挖掘在电信行业手册
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20444


Scala语言规范
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20434


魅族莫涵宇-魅族大数据平台架构实践
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20422


大数据核心技术与应用论坛—Hadoop与ElasticSearch的融合—卢亿雷
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20410


华为云服务大数据解决方案
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20399


问答:

hiveserver2启动不了,急
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20397






2016年about云11月第04周经典帖子总结


spark开发基础之Scala快餐:开发环境Intellij IDEA 快捷键整理【收藏备查】
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20380&extra=
1.如何设置断点调试Scala?
2.如何注释Scala?
3.如何格式化代码?
4.本文讲了哪些技巧?


Linux中搭建通过docker搭建hadoop分布式集群教程
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20378&extra=
1.  启动docker可能出现哪些问题?如何解决?
2.  如何基于现有镜像创建新的镜像?
3.  搭建hadoop集群的步骤有哪些?
4. 如何设置ssh免密码登录
5. 需要修改那些配置文件?
6. 如何判断集群正常启动了?
7. 如何解决重启集群后配置好的固定ip消失问题?
使用机器学习算法和大数据工具集来预测已知的心脏疾病(附源码)
1. 使用什么样的数据集来进行预测?
2. 使用哪些工具与技术去实现预测系统?
3. 如何对预测系统进行设计架构?

4. 如何对训练集数据进行分析?

5. 如何构造模型对象并进行实际预测?
6. 对于这个预测系统有什么缺点?

大数据批处理及流处理框架汇总及对比
1、大数据处理框架是什么?
2、如何理解批处理系统?
3、各框架系统的优势与局限有哪些?
4、各框架流处理系统、批处理模式有哪些特性?


Scala构建并行机器学习系统
1、为什么使用Scala构建机器学习系统?
2、一个计算工作流需要哪些步骤?
3、
使用训练数据进行分析的过程如何处理?

全自动安装基于newton的openstack
1.节点操作系统安装方法?
2.怎样安装controller节点?
3.这样安装computer节点?
谈大数据及机器学习和人工智能带来的影响?
1.不同规模的数据项目怎样选择合适的算法?
2.如何成为一名大数据工作者?
3.怎么看待机器学习和人工智能给人类带来的影响?
资源:
HBase集群应用和优化经验-九翎

老外nosql(Redis)视频2,3,4,5:redis基础|管理配置及构建

老外nosql(Redis)视频1:redis介绍

Spark平台在电信运营商的应用实践

spark开发基础之从Scala快餐序言

2016中国软件开发者白皮书

问答:
[CDH 5.2] HDFS 中的namenode启动不了





2016年about云11月第03周经典帖子总结

开发环境中[IDEA]调试Spark SQL及遇到问题解决办法
http://www.aboutyun.com/thread-20266-1-1.html
1.为什么IDEA连着把spark-1.4.1的源码都编译了?
2.怎样把hive-site.xml文件"送"给IEDA?
3.怎样设置设置IEDA的JVM参数?


深度学习5种框架介绍包括官网,优缺点等
1.PaddlePaddle是什么?
2.TensorFlow的亮点是什么?有哪些优点和缺点?
3.本文介绍了哪些深度学习框架?


京东用大数据的方法解决【物流】建配送站的问题
1、大数据如何转化为智慧系统?
2、如何理解京东大数据平台架构?
3、如何构建智慧物流系统?


RDD详解及在Spark中的地位和作用
1、RDD是什么?
2、为什么产生RDD?
3、RDD在spark是什么地位?
4、RDD在spark说是什么作用?
5、如何操作RDD?




如何通过mapreduce 分析各种类型(word,pdf等)数字的文档
1.什么是Jaql?
2.什么是Tika?
3.怎样创建并使用Jaql模块?


资源:
田毅-Spark开发及本地环境搭建指南

about云spark开发基础之Scala快餐

万象大数据应用实例

智慧城市顶层设计

基于Spark的用户上网WAP日志分析

openstack M版中文安装文档

问答:
idea调试Spark--sparksql

SparkSql会生成很多的小文件,怎么解决哦?



2016年about云11月第02周经典帖子总结

数据挖掘就业解答及相关说明
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20199&extra=
1.数据挖掘主要是做算法还是做应用?分别都要求什么?
2.北上广以外的普通公司用的多吗?待遇如何?
3.和前端后端程序员比有什么区别?有什么优缺点?
4.目前在学习机器学习,如果想找数据挖掘方面的工作应该学习哪些内容?
5.hadoop,hive之类的需要学习吗?




HBase RegionServer宕机恢复三部曲
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20207&extra=
1.HBase的故障恢复有哪三种不同模式?
2.HBase日志切分方法?
3.Distributed Log Replay解决了哪些问题?



如何使用Spark Streaming+ES构建App异常监控平台(以美团为例)
1. 为什么要选择Spark Streaming和Elasticsearch?
2. 如何解决异常重启和升级重导等问题带来的稳定性问题?
3. 为解决低延迟问题,需要在输入端和输出端做什么处理?
4. Elasticsearch在实时分析平台的优势是什么?
5. 如何提高整个平台的可扩展性?


无监督式机器学习之聚类分析及Autoencoder应用方向介绍
1、什么是无监督式机器学习?
2、聚类分析的流程有哪些?
3、什么是Autoencoder算法?


spark开发基础之从关键字、函数入门Scala
1.apply的作用是什么?
2.yield什么情况下使用?
3.partition如何使用?


Spark 日志解析示例包括运行、输出结果、源代码
1.本文分析的日志格式什么样的?
2.如何通过代码实现的?
3.分析网页计分例子如何实现的?


将 Spark Streaming + Kafka direct 的 offset 存入Zookeeper并重用
1. 使用Direct API时为什么需要见offset保存到Zookeeper中?
2. 如何将offset存入到Zookeeper中?
3. 如何解决Zookeeper中offset过期问题?


资源:

谁说菜鸟不会数据分析-(完整)

Python 之 django-1-8入门

中国智慧城市大数据应用市场研究白皮书

spark开发基础之Scala资源汇总

移劢大数据平台架构实践

算法之道

大数据岗位的面试总结【六个公司】

问答:

intellij idea开发的spark应用spark-submit提交正常运行,直接在idea提交有问题




携程Storm实时大数据平台是如何实现的及遇到问题总结
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20187
1.为什么要做实时数据平台?
2.需要怎样的实时数据平台?
3.如何实现实时数据平台?
4.实现实时数据平台遇到了哪些问题?




大数据架构师必读:大数据开源技术产生演进过程及背景介绍
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20176
1. 何为小数据处理?
2. 在大数据的浪潮中Hadoop 为何能够崛起?
3. 在Hadoop 显露出许多缺点时,我们该如何架构大数据系统?
4. 未来大数据架构的趋势是什么样的?




淘宝大数据平台发展的三个阶段介绍
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20160&extra=
1、淘宝网数据仓库平台发展阶段有哪些?
2、如何理解天网调度系统架构?
3、如何理解云梯数据仓库、数据同步架构?
4、孔明灯解决方案重点流程有哪些?



一元一次线性方程的MapReduce实现
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20140&extra=
1.怎样打乱数据?
2.怎样实现一元一次线性回归?
3.怎样验证结果?
基于Spark的数据挖掘环境搭建
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20138&extra=
1.怎样配置hadoop插件?
2.怎样配置spark插件?
3.怎样配置scala插件?
机器学习有哪些通用框架?
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20148&extra=
1、有哪些标签类型?
2、哪些指标可以评价一个框架的好坏?
3、特征有哪些类型?
4、如何选择好的模型?




资源:

集体智慧编程中文版【机器学习】
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20188&extra=

精通 Apache Spark【英文版】
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20179&extra=

Storm技术内幕与大数据实践
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20163&extra=

学习openstack网络Neutron【openstack推荐书】
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20154&extra=&ordertype=1

spark之Scala-入门手册
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20143&extra=


问答:
mapreduce报错 java.net.ConnectException: Connection refused
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20153&extra=





2016年about云10月第04周经典帖子总结


图数据分析在Spark生态系统的使用
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20080
1、如何定义图数据?
2、图数据分析与传统数据的处理有哪些不同之处?
3、图数据分析是如何促进大数据和预测分析?
4、NoSQL图数据库、图数据查询、图数据分析和图数据可视化这四种图数据相关的概念吗?
5、在哪些受欢迎的用例数据处理中,图数据处理是更好解决的方案?
6、Spark GraphX程序库实现中还有哪些缺失特性?



基于 Spark 如何构建一个文本情感分析系统
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20067
1. 什么是文本情感分析?
2. 为什么要采用Spark?
3. 基于 Spark 如何构建文本情感分析系统?
4. 如何文本分类正确率?



Hbase架构及设计实践
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20060
1. NOSQL是如何产生的以及Hbase 在NOSQL中的地位如何?
2. Hbase框架是如何架构出来的 ?
3. Hbase 是如何检索一条数据以及检索时间复杂度是多少?
4. 如何设计 Hbase 数据库?
5. 还有哪些HBase调优小技巧?


网易云对象存储方案和应用场景介绍
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20052
1、对象存储应用场景有哪些?
2、网易对象存储核心是什么?
3、DFS分布式文件系统哪些特性?
4、网易NOS系统架构提供哪些服务?



ElasticSearch  Java API 之 索引管理【 版本2.4.1】
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20042
1.ElasticSearch如何实现管理索引的?
2.IndicesAdminClient定义了几种prepareXXX()方法作为创建请求的入口点?
3.类型存在API的作用是什么?
4.如何创建复杂索引?
5.如何关闭打开索引?
6.如何创建索引的别名?


rpm安装CDH方法介绍:以CDH-5.3.2为例
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20037
1.什么是cloudera manager?
2.Hadoop的适用场景与不适用场景?
3.怎样通过cloudera manager安装Hadoop?



资源:

深度学习【英文】
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20064


中国医药电商大数据分析报告
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20061


Scala编程指南第三版(2016)【英文】
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20054


Sqoop开发者指南
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20043



学习Ceph【英文版】
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20038



问答:

hive 查看数据是不是连续重复的数据
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20068



如何用spark某些字段的回车去除
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20056


sqoop执行导入导出不执行mapreduce
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20044






2016年about云09月第01-03周经典帖子总结


HDFS集群磁盘数据倾斜不均衡的解决方案
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19959
1. HDFS集群磁盘不均衡会造成哪些问题?
2. 解决HDFS集群磁盘不平衡的方案有哪些?
3. 如何选择解决方案?



大数据架构师必备技能:几种常见的NoSQL建模技术
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19969
1.NoSQL数据建模有哪些注意事项?
2.NoSQL数据建模的基本原则有哪些?
3.NoSQL可以实现哪些建模技术?





Redis内存优化及持久化机制
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19966
1、Redis 常用数据类型有哪些?
2、有哪些常用内存优化手段与参数设置?
3、Redis 的持久化机制有哪些?如何设置?




shipyard-Docker的web图形化工具介绍及部署
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19962
1.Shipyard的作用是什么?
2.Shipyard本文介绍哪两个概念?
3.Shipyard搭建包含哪些过程?





spark入门(2.0.1版本):概述,下载,编译,运行环境及实例运行
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19981
1.spark下载方式有哪些?
2.spark可以运行在哪些系统?
3.spark支持哪些语言?
4.如何运行spark各种语言版本例子?



大数据架构师必读:金融机构应用大数据4案例分析
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19896
1.大数据无法转化为“大价值”的原因是什么?
2.四个案例分别介绍了什么内容?
3.本人认为金融机构在大数据利用上存在哪两个重要节点?


十一:人生的一些思考及工作经历总结
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19956


Kafka源码分析Producer读取Metadata的数据结构及Metadata2种更新机制介绍
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19917
1. 什么是多线程异步发送模型?
2. Metadata的线程安全性如何实现?
3. Metadata的数据结构是什么?
4. producer如何读取Metadata?
5. Sender的如何创建?
6. Sender poll()如何更新Metadata?
7. Metadata有哪2种更新机制?
8. 什么是Metadata失效检测?
9. Metadata有哪些其他的更新策略?


面试的方法论(工作20年)
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19939
1.面试问题的根源是什么?
2.面试的时候怎样进行自我介绍?
3.面试的过程有哪几个阶段?




[大数据之Spark]——Transformations转换入门经典实例
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19985


大龄程序员保值的5个方向指引
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20010



资源:
JVM调优总结
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20002


数据挖掘技术及应用【500页ppt最全理论及实践】
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19895


Apache Spark 的设计与实现
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20021


coursera上最新伊利诺伊大学的大数据视频和华盛顿大学的Hadoop教学视频
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19998


20160814北京睿数互动互联网精准投放平台解决方案
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19992


可视化数据【书籍】
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19967


刘奇-豌豆荚分布式redis的设计与实现 终稿
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19920


问答:

啊,要疯了 折腾了一个星期shipyard还是不成功。求大神帮帮忙
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20026







2016年about云09月第03-04周经典帖子总结


30岁找份程序员的工作
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19863


Apache Hadoop 3.0.0-alpha1版发布做了哪些改进
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19809
1.hadoop3.x必须使用哪个版本的jdk?
2.hadoop3.x是否可以配置5个namenode?
3.hadoop除了可以使用swift,还可以使用什么文件系统?
4.hadoop为何要更改一些端口?


使用Elasticsearch构建电商搜索平台实践案例
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19829
1、电商数据系统主要类型有哪些?
2、互联网商用搜索通常会遇到哪些问题?
3、如何实现搜索引擎架构?
4、为什么我们选择Kafka?
5、ES性能如何进行优化?




编写Linux shell脚本八条经验总结
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19822
1.shell 脚本的第一行有几种写法,哪种更好一些?
2.set -e 和 set -x的作用是什么?
3.不适用local会遇到什么问题?
4.trap使用场景是什么?




如何基于分布式环境构建一个数据回放的无人驾驶模拟平台
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19813

1. 什么是无人驾驶模拟技术?
2. 无人驾驶汽车模拟器是什么?它的作用是啥?会面临哪些挑战?
3. ROS作在整个系统中担任什么样的角色?
4. 怎么理解ROSBAG?
5. Spark在整个系统中担任什么样的角色?
6.  如何解决Spark本身不支持多媒体数据读取的问题?
7. ROSBAG如何缓存数据至内存?如何读取内存中的缓存数据?


Spark Sql介绍及实际遇到的问题
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19794
1、什么是DataFrames?
2、什么是DataFrames Schema?
3、Spark 1.2 Sql踩过的坑有哪些?



spark入门基础知识常见问答整理汇总
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19768
1.Spark是什么?
2.什么是Spark Streaming?
3.Spark作为计算框架的优势是什么?



程序员要投资的那些事
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19815



keystone验证流程
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19860


ElasticSearch优化技巧3:总结机器设置及索引过程
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19844


Hadoop 3.0.0-alpha1发布
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19774



资源:
Java内存管理问题案例分享【追风堂】
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19824


机器学习实战
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19811


数据仓库和数据挖掘的OLAP技术(浙大-王灿)
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19800


KETTLE使用自己总结的Kettle使用方法和成果说明
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19780



Hbase深入理解【追风堂】
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19825


Apache Hadoop 3.0.0-alpha1版发布做了哪些改进
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19855


函数式与RDD
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19862


中国电信在大数据领域上的探索与创新
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19861


Pantaho Kettle使用PDI构建开源ETL解决方案_完整版【书籍】
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19856



数据模型资源手册卷1
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19835



数据模型资源手册卷2
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19836



统计思维:程序员数学之概率统计
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19812



使用spark构建,处理和分析 large-scale graphs【Apache Spark Graph Processing】
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19799





2016年about云09月第02周经典帖子总结


Spark之Stage详解【专题】
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19724
1.什么是spark stage?
2.stage如何划分?
3.Spark 多个Stage执行是串行执行的么?




ElasticSearch优化技巧总结
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19748
1. 如何优化集群节点的配置?
2. 机器内存为什么需要预留一半给Lucene用?
3. 给ES内存配置是不是越大越好呢?

4. Swapping为什么会是性能的瓶颈?


Spark MLlib之 KMeans聚类算法详解
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19745
1.什么是Spark MLlib ?
2.Spark MLlib 分为哪些类?
3.KMeans算法的基本思想是什么?
4.Spark Mllib KMeans源码包含哪些内容?



如何在Spark sql上扩展自己的插件?----spark开源项目spark-avro
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19741


JobControl设计原理及JobControl类深入剖析
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19740
1.什么是贝叶斯分类?
2.JobControl的设计原理是什么?
3.Job类是如何设计的?
4.JobControl类如何深入剖析?


Spark任务中Stage划分算法及Task任务本地性算法原理
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19729
1、Spark Job Stage划分算法有哪些?
2、Task最佳计算位置算法如何理解?
3、Task任务本地算法运用场景有哪些?



为什么程序员普遍都比较难沟通?该如何改变提高自己
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19725



资源:
Spark Scala入门手册
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19742



spark介绍及SPARKSQL应用
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19743



聚类算法---以K-means算法实例
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19752


Hadoop-MapReduce短作业执行性能优化
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19720



数据 算法 英文
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19750


写好spark jobs的技巧【英文】
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19733


Octopus(大章鱼):基于R语言的跨平台大数据机器学习与数据分析系统-南京大学-黄宜华
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19732


提高spark写效率文档【英文】
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19721



问答:

spark查询不了hive的orc格式的表
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19723


关于hive2.1.0的动态分区,做insert的性能问题
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19722





2016年about云09月第01周经典帖子总结


kafka学习线路指导入门:包括理论、部署、实战知识汇总整理
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19665


spark分布式编程之全局变量专题【共享变量】
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19652
1.spark共享变量的作用是什么?
2.什么情况下使用共享变量?
3.如何在程序中使用共享变量?
4.广播变量源码包含哪些内容?



Spark OOM专题总结
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19677
1.本文认为spark oom分为哪两种情况?
2.Spark在一个Executor中的内存分为哪三块?
3.内存溢出解决方法本文提出了哪些解决方法?



关于Hive优化的四种方法总结
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19664
1、Hive整体架构优化点有哪些?
2、如何在MR阶段进行优化?
3、Hive在SQL中如何优化?
4、Hive框架平台中如何优化?



通过Kafka将数据从关系型数据库实时数据流导入到HDFS的Hive表中
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19653
1.Hive 1.2.1,Flume 1.6 以及 Kafka 0.9是否兼容?
2.实现Hadoop实时数据导入本文使用了几步?
3.通过Kafka将数据从关系型数据库实时数据流导入到HDFS的Hive表,你认为是否还有其它思路?


我是如何学习数据分析的
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19690



资源:
MongoDB实战
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19674


hbase性能和可靠性增强【ebay】
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19654



Hive存储格式简析
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19655


大数据分析的未来【英文】
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19659



透过WordCount案例快速理解SparkStreaming工作原理分享
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19688


hadoop and pig【Twitter】
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19658



问答:

spark streaming进行累加的方法有哪些?
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19647


JobControl日志显示问题
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19646









已有(13)人评论

跳转到指定楼层
ggw0122 发表于 2016-9-5 03:52:57
谢谢了,资料不错,很好很好
回复

使用道具 举报

ggw0122 发表于 2016-9-5 22:05:33
不错,谢谢了
回复

使用道具 举报

ggw0122 发表于 2016-9-5 22:17:53
不错不错,谢谢分享
回复

使用道具 举报

bwboy 发表于 2016-9-13 09:26:30
好久没来了,好好温习下。
回复

使用道具 举报

verjil0404 发表于 2016-9-19 17:37:59
回顾真的是好东西,帮助捡起来很多有用的东西
回复

使用道具 举报

mengstlly 发表于 2016-9-20 13:23:05
看一看精华
回复

使用道具 举报

anotatta 发表于 2016-9-20 14:18:08
谢谢楼主,正在准备
回复

使用道具 举报

cloudcat 发表于 2016-9-22 15:39:33
这么好的资源,都不知道如何看得完呀
回复

使用道具 举报

wangyinkai2pm 发表于 2016-10-6 21:09:51
不错不错,谢谢分享
回复

使用道具 举报

12下一页
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条