about云每周经典回顾汇总
about云2015年每周经典回顾汇【第二篇】
about云2016年每周经典回顾汇总【第三篇】
2016年about云12月第04周经典帖子总结
部署kafka常见问答
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20591
1、如何对Kafka Broker上持久化的数据进行加密
2、Kafka是否支持跨数据中心的可用性
3、Kafka支持哪些类型的数据转换
4、Kafka支持哪些类型的数据转换
5、如何通过Kafka发送大消息或者超大负荷量?
6、Kafka是否支持MQTT或JMS协议?
Dubbo入门:一个分布式服务框架
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20612
1. Dubbo是什么?
2. Dubbo能做什么?
3.dubbo的架构包含哪些内容?
4.dubbo如何使用?
利用SparkStreaming监控hdfs目录,实现实时wordCount计算
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20583
1.怎样创建StreamingContext? 2.怎样Spark Streaming处理数据? 3.怎样解决从checkpoint目录读取应用信息,无法初始化ShuffleDStream导致的出错?
利用可视化方法选择机器学习算法
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20601
1、如何判断选择初始模型?
2、使用哪种模型来拟合数据?
3、如何获取免费样本数据集?
4、可视化图表有哪些?
SQL on Hadoop性能瓶颈点分析及解决方法总结
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20631
1. CPU、网络、硬盘等在在Hadoop系统进行SQL运算时负责的工作有哪些? 2. 在Hadoop集群中提升SQL的执行性能需要注意哪几点? 3. 如何在SQL中减少数据访问? 4. 如何在SQL中返回更少的数据? 5. 如何在SQL中减少交互次数? 6. 如何在SQL中减少数据库服务器?
资源:
银行客户画像应用
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20606
数据挖掘:概念与技术(第3版)
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20592
CDH5.8.0安装文档
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20586
问答:
glance上传镜像提示Invalid OpenStack Identity credentials.
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20611
kafka很迷惑,请高手指点!
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20593
2016年about云12月第03周经典帖子总结
kafka怎么样将用户定义的时间转化为集群内部的offset
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20563
1. kafka根据timestamp来得到offset的原理是什么?
2. timestamp为-1和-2分别表示什么意思?
3. timestamp和offset的对应关系是如何存储的?
4. 如何寻找最近的一个满足 timestamp < target_timestamp 的 index?
Oozie运用实战
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20537
1、Oozie如何安装配置?
2、如何自定义实现workflow?
3、如何实现shell action
4、如何简单实现DAG图?
5、oozie的coordinator如何基于时间或者数据调度的workflow?
sparkStreaming 连接数据库遇到的问题和解决方法
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20555
1. 在使用destream.foreachrdd 连接数据库时经常出现的错误时什么?
2. 如何解决上面的错误?
netty绑定端口及服务启动源码分析
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20546
1、我们为什么使用netty?
2、netty是如何绑定端口?
3、netty如何启动服务?
4、netty有哪些核心组件?
资源:
CDH-的Cloudera-Manager免费与收费版的对比表
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20540
SPARK-大数据处理引擎(初级)
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20565
SCALA下划线应用场景
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20548
《golang 在京东列表页的实践》
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20557
ebay构建开源分布式实时预警平台实践
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20539
华为Docker进阶与实战
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20566
Doing 数据科学
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20547
2016年about云12月第02周经典帖子总结
HBase数据模型特性及表设计思路
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20485
1、如何理解HBase分布式nosql数据库?
2、HBase数据模型如何理解?
3、HBase的表设计中需要注意哪些问题?
4、如何设计几种表结构?
5、HBase关键特性有哪些?
深入了解京东商品搜索引擎的架构
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20466
1.京东商品搜索引擎的整体架构是怎样的? 2.京东搜索索引服务系统分为哪几个阶段? 3.京东基于内存和线程池的搜索服务遇到哪些瓶颈,怎样优化?
数据分析师知识结构体系整理
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20498
1. 如何进行数据采集?
2. 采集到的数据如何存储?
3. 如何提取数据?
4. 如何进行数据挖掘?
5. 如何进行数据分析?
6. 数据展现形式是什么?
7. 数据的应用价值在哪?
使用spark实现max/min/mean/topN等经典mapreduce问题
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20507
1. 使用spark如何实现最大值最小值问题?
2. 使用spark如何实现平均值问题?
3. 使用spark如何实现topN问题?
storm定时的三种方式及tick详解
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20502
1.tick是什么功能?
2.如何指定某个bolt每隔一段时间做一些操作?
3.如何实现Topology中的每个bolt都每隔一段时间做一些操作?
Hadoop-Impala让分区最优化的方法
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20474
1、什么时候使用分区表?
2、在Impala的SQL语法,分区影响哪些语句?
3、静态和动态分区子句什么区别?
4、分区的子目录是什么权限?
5、什么是分区精简?
6、如何检查分区修剪对于查询的有效性?
7、检查是否需要对查询进行分区修剪?
8、什么SQL构造分区修剪工作?
9、如何动态分区修剪?
10、如何选择分区键列
11、分区有哪些不同文件格式?
12、如何管理分区?
资源:
Elasticsearch之kibana中文指南
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20511
JAVA并发编程实践(电子工业出版社)
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20499
Spark大数据中文分词统计Scala语言工程源码
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20476
基于FlumeKafkaSpark-的分布式日志流处理系统的设计与实现
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20487
Spark Summit East 2016 PPT【40文档下载】
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20465
问答:
求救!!!HBASE报错!!!!
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20491
2016年about云12月第01周经典帖子总结
数据分析入门需要了解的知识总结
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20400
1.什么是数据分析? 2.数据分析的目的是什么? 3.数据分析的步骤?
HBase读性能优化策略:包括客户端、服务端及列族设计优化
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20412
1、读请求延迟较大存在在哪些场景?
2、scan缓存是否设置合理?
3、get请求是否可以使用批量请求?
4、请求是否可以显示指定列族或者列?
5、离线批量读取请求是否设置禁止缓存?
6、读请求是否均衡?
7、 BlockCache是否设置合理?
8、HFile文件是否太多?
9、 Compaction是否消耗系统资源过多?
10、 Bloomfilter是否设置?是否设置合理?
11、 Short-Circuit Local Read功能是否开启?
12、 Hedged Read功能是否开启?
13、数据本地率是否太低?
spark开发基础之Scala详解apply方法
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20423
1.什么情况下调用apply方法?
2.apply你认为有哪些作用?
3.方法调用属于apply什么功能?
Spark Job调度方式及资源分配策略介绍
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20419
1、如何理解在应用程序间、程序内调度?
2、集群的资源分配有哪些方式?
3、资源分配策略有哪些?
4、如何配置调度池属性?
资源:
数据挖掘在电信行业手册
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20444
Scala语言规范
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20434
魅族莫涵宇-魅族大数据平台架构实践
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20422
大数据核心技术与应用论坛—Hadoop与ElasticSearch的融合—卢亿雷
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20410
华为云服务大数据解决方案
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20399
问答:
hiveserver2启动不了,急
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20397
2016年about云11月第04周经典帖子总结
spark开发基础之Scala快餐:开发环境Intellij IDEA 快捷键整理【收藏备查】
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20380&extra=
1.如何设置断点调试Scala?
2.如何注释Scala?
3.如何格式化代码?
4.本文讲了哪些技巧?
Linux中搭建通过docker搭建hadoop分布式集群教程
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20378&extra=
1. 启动docker可能出现哪些问题?如何解决? 2. 如何基于现有镜像创建新的镜像? 3. 搭建hadoop集群的步骤有哪些? 4. 如何设置ssh免密码登录 ? 5. 需要修改那些配置文件? 6. 如何判断集群正常启动了? 7. 如何解决重启集群后配置好的固定ip消失问题? 使用机器学习算法和大数据工具集来预测已知的心脏疾病(附源码) 1. 使用什么样的数据集来进行预测?
2. 使用哪些工具与技术去实现预测系统?
3. 如何对预测系统进行设计架构?
4. 如何对训练集数据进行分析?
5. 如何构造模型对象并进行实际预测?
6. 对于这个预测系统有什么缺点?
大数据批处理及流处理框架汇总及对比 1、大数据处理框架是什么?
2、如何理解批处理系统?
3、各框架系统的优势与局限有哪些?
4、各框架流处理系统、批处理模式有哪些特性?
Scala构建并行机器学习系统 1、为什么使用Scala构建机器学习系统?
2、一个计算工作流需要哪些步骤?
3、使用训练数据进行分析的过程如何处理?
全自动安装基于newton的openstack 1.节点操作系统安装方法? 2.怎样安装controller节点? 3.这样安装computer节点? 谈大数据及机器学习和人工智能带来的影响? 1.不同规模的数据项目怎样选择合适的算法? 2.如何成为一名大数据工作者? 3.怎么看待机器学习和人工智能给人类带来的影响? 资源: HBase集群应用和优化经验-九翎
老外nosql(Redis)视频2,3,4,5:redis基础|管理配置及构建
老外nosql(Redis)视频1:redis介绍
Spark平台在电信运营商的应用实践
spark开发基础之从Scala快餐序言
2016中国软件开发者白皮书
问答: [CDH 5.2] HDFS 中的namenode启动不了
2016年about云11月第03周经典帖子总结
开发环境中[IDEA]调试Spark SQL及遇到问题解决办法
http://www.aboutyun.com/thread-20266-1-1.html
1.为什么IDEA连着把spark-1.4.1的源码都编译了?
2.怎样把hive-site.xml文件"送"给IEDA? 3.怎样设置设置IEDA的JVM参数?
深度学习5种框架介绍包括官网,优缺点等 1.PaddlePaddle是什么?
2.TensorFlow的亮点是什么?有哪些优点和缺点?
3.本文介绍了哪些深度学习框架?
京东用大数据的方法解决【物流】建配送站的问题 1、大数据如何转化为智慧系统?
2、如何理解京东大数据平台架构?
3、如何构建智慧物流系统?
RDD详解及在Spark中的地位和作用 1、RDD是什么?
2、为什么产生RDD?
3、RDD在spark是什么地位?
4、RDD在spark说是什么作用?
5、如何操作RDD?
如何通过mapreduce 分析各种类型(word,pdf等)数字的文档 1.什么是Jaql? 2.什么是Tika? 3.怎样创建并使用Jaql模块?
资源: 田毅-Spark开发及本地环境搭建指南
about云spark开发基础之Scala快餐
万象大数据应用实例
智慧城市顶层设计
基于Spark的用户上网WAP日志分析
openstack M版中文安装文档
问答: idea调试Spark--sparksql
SparkSql会生成很多的小文件,怎么解决哦?
2016年about云11月第02周经典帖子总结
数据挖掘就业解答及相关说明
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20199&extra=
1.数据挖掘主要是做算法还是做应用?分别都要求什么?
2.北上广以外的普通公司用的多吗?待遇如何?
3.和前端后端程序员比有什么区别?有什么优缺点?
4.目前在学习机器学习,如果想找数据挖掘方面的工作应该学习哪些内容?
5.hadoop,hive之类的需要学习吗?
HBase RegionServer宕机恢复三部曲
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20207&extra=
1.HBase的故障恢复有哪三种不同模式?
2.HBase日志切分方法? 3.Distributed Log Replay解决了哪些问题?
如何使用Spark Streaming+ES构建App异常监控平台(以美团为例) 1. 为什么要选择Spark Streaming和Elasticsearch? 2. 如何解决异常重启和升级重导等问题带来的稳定性问题? 3. 为解决低延迟问题,需要在输入端和输出端做什么处理? 4. Elasticsearch在实时分析平台的优势是什么? 5. 如何提高整个平台的可扩展性?
无监督式机器学习之聚类分析及Autoencoder应用方向介绍 1、什么是无监督式机器学习?
2、聚类分析的流程有哪些?
3、什么是Autoencoder算法?
spark开发基础之从关键字、函数入门Scala 1.apply的作用是什么?
2.yield什么情况下使用?
3.partition如何使用?
Spark 日志解析示例包括运行、输出结果、源代码 1.本文分析的日志格式什么样的?
2.如何通过代码实现的?
3.分析网页计分例子如何实现的?
将 Spark Streaming + Kafka direct 的 offset 存入Zookeeper并重用 1. 使用Direct API时为什么需要见offset保存到Zookeeper中?
2. 如何将offset存入到Zookeeper中?
3. 如何解决Zookeeper中offset过期问题?
资源:
谁说菜鸟不会数据分析-(完整)
Python 之 django-1-8入门
中国智慧城市大数据应用市场研究白皮书
spark开发基础之Scala资源汇总
移劢大数据平台架构实践
算法之道
大数据岗位的面试总结【六个公司】
问答:
intellij idea开发的spark应用spark-submit提交正常运行,直接在idea提交有问题
携程Storm实时大数据平台是如何实现的及遇到问题总结
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20187
1.为什么要做实时数据平台?
2.需要怎样的实时数据平台?
3.如何实现实时数据平台?
4.实现实时数据平台遇到了哪些问题?
大数据架构师必读:大数据开源技术产生演进过程及背景介绍
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20176
1. 何为小数据处理?
2. 在大数据的浪潮中Hadoop 为何能够崛起?
3. 在Hadoop 显露出许多缺点时,我们该如何架构大数据系统?
4. 未来大数据架构的趋势是什么样的?
淘宝大数据平台发展的三个阶段介绍
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20160&extra=
1、淘宝网数据仓库平台发展阶段有哪些?
2、如何理解天网调度系统架构?
3、如何理解云梯数据仓库、数据同步架构?
4、孔明灯解决方案重点流程有哪些?
一元一次线性方程的MapReduce实现
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20140&extra=
1.怎样打乱数据? 2.怎样实现一元一次线性回归? 3.怎样验证结果? 基于Spark的数据挖掘环境搭建
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20138&extra=
1.怎样配置hadoop插件? 2.怎样配置spark插件? 3.怎样配置scala插件? 机器学习有哪些通用框架?
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20148&extra=
1、有哪些标签类型?
2、哪些指标可以评价一个框架的好坏?
3、特征有哪些类型?
4、如何选择好的模型?
资源:
集体智慧编程中文版【机器学习】
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20188&extra=
精通 Apache Spark【英文版】
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20179&extra=
Storm技术内幕与大数据实践
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20163&extra=
学习openstack网络Neutron【openstack推荐书】
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20154&extra=&ordertype=1
spark之Scala-入门手册
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20143&extra=
问答:
mapreduce报错 java.net.ConnectException: Connection refused
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20153&extra=
2016年about云10月第04周经典帖子总结
图数据分析在Spark生态系统的使用
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20080
1、如何定义图数据?
2、图数据分析与传统数据的处理有哪些不同之处?
3、图数据分析是如何促进大数据和预测分析?
4、NoSQL图数据库、图数据查询、图数据分析和图数据可视化这四种图数据相关的概念吗?
5、在哪些受欢迎的用例数据处理中,图数据处理是更好解决的方案?
6、Spark GraphX程序库实现中还有哪些缺失特性?
基于 Spark 如何构建一个文本情感分析系统
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20067
1. 什么是文本情感分析? 2. 为什么要采用Spark? 3. 基于 Spark 如何构建文本情感分析系统? 4. 如何文本分类正确率?
Hbase架构及设计实践
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20060
1. NOSQL是如何产生的以及Hbase 在NOSQL中的地位如何?
2. Hbase框架是如何架构出来的 ?
3. Hbase 是如何检索一条数据以及检索时间复杂度是多少?
4. 如何设计 Hbase 数据库?
5. 还有哪些HBase调优小技巧?
网易云对象存储方案和应用场景介绍
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20052
1、对象存储应用场景有哪些?
2、网易对象存储核心是什么?
3、DFS分布式文件系统哪些特性?
4、网易NOS系统架构提供哪些服务?
ElasticSearch Java API 之 索引管理【 版本2.4.1】
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20042
1.ElasticSearch如何实现管理索引的?
2.IndicesAdminClient定义了几种prepareXXX()方法作为创建请求的入口点?
3.类型存在API的作用是什么?
4.如何创建复杂索引?
5.如何关闭打开索引?
6.如何创建索引的别名?
rpm安装CDH方法介绍:以CDH-5.3.2为例
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20037
1.什么是cloudera manager? 2.Hadoop的适用场景与不适用场景? 3.怎样通过cloudera manager安装Hadoop?
资源:
深度学习【英文】
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20064
中国医药电商大数据分析报告
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20061
Scala编程指南第三版(2016)【英文】
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20054
Sqoop开发者指南
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20043
学习Ceph【英文版】
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20038
问答:
hive 查看数据是不是连续重复的数据
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20068
如何用spark某些字段的回车去除
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20056
sqoop执行导入导出不执行mapreduce
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20044
2016年about云09月第01-03周经典帖子总结
HDFS集群磁盘数据倾斜不均衡的解决方案
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19959
1. HDFS集群磁盘不均衡会造成哪些问题? 2. 解决HDFS集群磁盘不平衡的方案有哪些? 3. 如何选择解决方案?
大数据架构师必备技能:几种常见的NoSQL建模技术
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19969
1.NoSQL数据建模有哪些注意事项? 2.NoSQL数据建模的基本原则有哪些? 3.NoSQL可以实现哪些建模技术?
Redis内存优化及持久化机制
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19966
1、Redis 常用数据类型有哪些?
2、有哪些常用内存优化手段与参数设置?
3、Redis 的持久化机制有哪些?如何设置?
shipyard-Docker的web图形化工具介绍及部署
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19962
1.Shipyard的作用是什么?
2.Shipyard本文介绍哪两个概念?
3.Shipyard搭建包含哪些过程?
spark入门(2.0.1版本):概述,下载,编译,运行环境及实例运行
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19981
1.spark下载方式有哪些?
2.spark可以运行在哪些系统?
3.spark支持哪些语言?
4.如何运行spark各种语言版本例子?
大数据架构师必读:金融机构应用大数据4案例分析
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19896
1.大数据无法转化为“大价值”的原因是什么?
2.四个案例分别介绍了什么内容?
3.本人认为金融机构在大数据利用上存在哪两个重要节点?
十一:人生的一些思考及工作经历总结
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19956
Kafka源码分析Producer读取Metadata的数据结构及Metadata2种更新机制介绍
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19917
1. 什么是多线程异步发送模型?
2. Metadata的线程安全性如何实现?
3. Metadata的数据结构是什么?
4. producer如何读取Metadata?
5. Sender的如何创建?
6. Sender poll()如何更新Metadata?
7. Metadata有哪2种更新机制?
8. 什么是Metadata失效检测?
9. Metadata有哪些其他的更新策略?
面试的方法论(工作20年)
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19939
1.面试问题的根源是什么? 2.面试的时候怎样进行自我介绍? 3.面试的过程有哪几个阶段?
[大数据之Spark]——Transformations转换入门经典实例
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19985
大龄程序员保值的5个方向指引
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20010
资源:
JVM调优总结
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20002
数据挖掘技术及应用【500页ppt最全理论及实践】
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19895
Apache Spark 的设计与实现
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20021
coursera上最新伊利诺伊大学的大数据视频和华盛顿大学的Hadoop教学视频
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19998
20160814北京睿数互动互联网精准投放平台解决方案
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19992
可视化数据【书籍】
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19967
刘奇-豌豆荚分布式redis的设计与实现 终稿
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19920
问答:
啊,要疯了 折腾了一个星期shipyard还是不成功。求大神帮帮忙
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20026
2016年about云09月第03-04周经典帖子总结
30岁找份程序员的工作
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19863
Apache Hadoop 3.0.0-alpha1版发布做了哪些改进
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19809
1.hadoop3.x必须使用哪个版本的jdk?
2.hadoop3.x是否可以配置5个namenode?
3.hadoop除了可以使用swift,还可以使用什么文件系统?
4.hadoop为何要更改一些端口?
使用Elasticsearch构建电商搜索平台实践案例
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19829
1、电商数据系统主要类型有哪些?
2、互联网商用搜索通常会遇到哪些问题?
3、如何实现搜索引擎架构?
4、为什么我们选择Kafka?
5、ES性能如何进行优化?
编写Linux shell脚本八条经验总结
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19822
1.shell 脚本的第一行有几种写法,哪种更好一些?
2.set -e 和 set -x的作用是什么?
3.不适用local会遇到什么问题?
4.trap使用场景是什么?
如何基于分布式环境构建一个数据回放的无人驾驶模拟平台
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19813
1. 什么是无人驾驶模拟技术?
2. 无人驾驶汽车模拟器是什么?它的作用是啥?会面临哪些挑战?
3. ROS作在整个系统中担任什么样的角色?
4. 怎么理解ROSBAG?
5. Spark在整个系统中担任什么样的角色?
6. 如何解决Spark本身不支持多媒体数据读取的问题?
7. ROSBAG如何缓存数据至内存?如何读取内存中的缓存数据?
Spark Sql介绍及实际遇到的问题
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19794
1、什么是DataFrames?
2、什么是DataFrames Schema?
3、Spark 1.2 Sql踩过的坑有哪些?
spark入门基础知识常见问答整理汇总
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19768
1.Spark是什么? 2.什么是Spark Streaming? 3.Spark作为计算框架的优势是什么?
程序员要投资的那些事
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19815
keystone验证流程
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19860
ElasticSearch优化技巧3:总结机器设置及索引过程
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19844
Hadoop 3.0.0-alpha1发布
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19774
资源:
Java内存管理问题案例分享【追风堂】
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19824
机器学习实战
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19811
数据仓库和数据挖掘的OLAP技术(浙大-王灿)
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19800
KETTLE使用自己总结的Kettle使用方法和成果说明
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19780
Hbase深入理解【追风堂】
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19825
Apache Hadoop 3.0.0-alpha1版发布做了哪些改进
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19855
函数式与RDD
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19862
中国电信在大数据领域上的探索与创新
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19861
Pantaho Kettle使用PDI构建开源ETL解决方案_完整版【书籍】
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19856
数据模型资源手册卷1
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19835
数据模型资源手册卷2
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19836
统计思维:程序员数学之概率统计
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19812
使用spark构建,处理和分析 large-scale graphs【Apache Spark Graph Processing】
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19799
2016年about云09月第02周经典帖子总结
Spark之Stage详解【专题】
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19724
1.什么是spark stage?
2.stage如何划分?
3.Spark 多个Stage执行是串行执行的么?
ElasticSearch优化技巧总结
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19748
1. 如何优化集群节点的配置?
2. 机器内存为什么需要预留一半给Lucene用?
3. 给ES内存配置是不是越大越好呢?
4. Swapping为什么会是性能的瓶颈?
Spark MLlib之 KMeans聚类算法详解
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19745
1.什么是Spark MLlib ?
2.Spark MLlib 分为哪些类?
3.KMeans算法的基本思想是什么?
4.Spark Mllib KMeans源码包含哪些内容?
如何在Spark sql上扩展自己的插件?----spark开源项目spark-avro
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19741
JobControl设计原理及JobControl类深入剖析
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19740
1.什么是贝叶斯分类?
2.JobControl的设计原理是什么?
3.Job类是如何设计的?
4.JobControl类如何深入剖析?
Spark任务中Stage划分算法及Task任务本地性算法原理
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19729
1、Spark Job Stage划分算法有哪些?
2、Task最佳计算位置算法如何理解?
3、Task任务本地算法运用场景有哪些?
为什么程序员普遍都比较难沟通?该如何改变提高自己
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19725
资源:
Spark Scala入门手册
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19742
spark介绍及SPARKSQL应用
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19743
聚类算法---以K-means算法实例
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19752
Hadoop-MapReduce短作业执行性能优化
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19720
数据 算法 英文
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19750
写好spark jobs的技巧【英文】
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19733
Octopus(大章鱼):基于R语言的跨平台大数据机器学习与数据分析系统-南京大学-黄宜华
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19732
提高spark写效率文档【英文】
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19721
问答:
spark查询不了hive的orc格式的表
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19723
关于hive2.1.0的动态分区,做insert的性能问题
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19722
2016年about云09月第01周经典帖子总结
kafka学习线路指导入门:包括理论、部署、实战知识汇总整理
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19665
spark分布式编程之全局变量专题【共享变量】
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19652
1.spark共享变量的作用是什么?
2.什么情况下使用共享变量?
3.如何在程序中使用共享变量?
4.广播变量源码包含哪些内容?
Spark OOM专题总结
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19677
1.本文认为spark oom分为哪两种情况?
2.Spark在一个Executor中的内存分为哪三块?
3.内存溢出解决方法本文提出了哪些解决方法?
关于Hive优化的四种方法总结
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19664
1、Hive整体架构优化点有哪些?
2、如何在MR阶段进行优化?
3、Hive在SQL中如何优化?
4、Hive框架平台中如何优化?
通过Kafka将数据从关系型数据库实时数据流导入到HDFS的Hive表中
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19653
1.Hive 1.2.1,Flume 1.6 以及 Kafka 0.9是否兼容?
2.实现Hadoop实时数据导入本文使用了几步?
3.通过Kafka将数据从关系型数据库实时数据流导入到HDFS的Hive表,你认为是否还有其它思路?
我是如何学习数据分析的
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19690
资源:
MongoDB实战
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19674
hbase性能和可靠性增强【ebay】
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19654
Hive存储格式简析
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19655
大数据分析的未来【英文】
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19659
透过WordCount案例快速理解SparkStreaming工作原理分享
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19688
hadoop and pig【Twitter】
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19658
问答:
spark streaming进行累加的方法有哪些?
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19647
JobControl日志显示问题
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19646
|