分享

about云2017年01月17日每日一读

helianthus 发表于 2017-1-16 21:05:03 [显示全部楼层] 回帖奖励 阅读模式 关闭右栏 0 4648
本帖最后由 helianthus 于 2017-1-16 23:30 编辑

about云日志分析项目准备:spark集群安装及常见配置项说明
http://www.aboutyun.com/thread-20807-1-1.html
1.spark有哪些进程?
2.spark配置文件中常用属性的含义是什么?
3.spark序列化哪种方式效率更高?

大数据框架【spark,hadoop,hive等】数据清洗适用场景介绍、对比及源码实现
http://www.aboutyun.com/thread-20808-1-1.html
1、如何防止Spark离线模型跑任务时,占用完集群所有资源?
2、大数据平台的数据源集中来源于哪些方面?
3、如何先通过某个用户最近30天的IP列表去找到使用相同IP频数最多的那一批用户列表呢?

4、如何结合关系网络的每个维度(IP、设备指纹、身份证、银行卡和加密隐私等等),去挖掘与该用户关联度最高的那一批用户列表?

5、如何对接产品标准化模型输出,让页面查询的效应时间变得更快些?
6、如何用Hive解决70%的数据清洗?
7、如何使用MapReduce来清洗特殊的数据?

资源:

hadoop调优参数列表统计
http://www.aboutyun.com/thread-20802-1-1.html

spark,hadoop框架基础之ProtoBuf开发者指南
http://www.aboutyun.com/thread-20806-1-1.html

问答:


求助 eclipse 用maven搭建scala程序报错
http://www.aboutyun.com/thread-20803-1-1.html

spark的shuffle
http://www.aboutyun.com/thread-20804-1-1.html

谁可以详细介绍下Hbase profbuf 吗
http://www.aboutyun.com/thread-20805-1-1.html

没找到任何评论,期待你打破沉寂

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条