about云2017年01月17日每日一读

本帖最后由 helianthus 于 2017-1-16 23:30 编辑

about云日志分析项目准备：spark集群安装及常见配置项说明
http://www.aboutyun.com/thread-20807-1-1.html
1.spark有哪些进程？
2.spark配置文件中常用属性的含义是什么？
3.spark序列化哪种方式效率更高？

大数据框架【spark，hadoop，hive等】数据清洗适用场景介绍、对比及源码实现
http://www.aboutyun.com/thread-20808-1-1.html
1、如何防止Spark离线模型跑任务时，占用完集群所有资源？
2、大数据平台的数据源集中来源于哪些方面？
3、如何先通过某个用户最近30天的IP列表去找到使用相同IP频数最多的那一批用户列表呢？
4、如何结合关系网络的每个维度（IP、设备指纹、身份证、银行卡和加密隐私等等），去挖掘与该用户关联度最高的那一批用户列表？
5、如何对接产品标准化模型输出，让页面查询的效应时间变得更快些？
6、如何用Hive解决70%的数据清洗？
7、如何使用MapReduce来清洗特殊的数据？

资源：

hadoop调优参数列表统计
http://www.aboutyun.com/thread-20802-1-1.html

spark,hadoop框架基础之ProtoBuf开发者指南
http://www.aboutyun.com/thread-20806-1-1.html

问答：

求助 eclipse 用maven搭建scala程序报错
http://www.aboutyun.com/thread-20803-1-1.html

spark的shuffle
http://www.aboutyun.com/thread-20804-1-1.html

谁可以详细介绍下Hbase profbuf 吗
http://www.aboutyun.com/thread-20805-1-1.html

图文精华

about云2017年01月17日每日一读

推荐 /2