2017年about云10月第04周经典帖子总结

日志分析实战之清洗日志小实例6：获取uri点击量排序并得到最高的url
http://www.aboutyun.com/forum.php?mod=viewthread&tid=22928
1.读取日志的过程中，发生异常本文是如何解决的?
2.读取后，如何过滤异常的记录？
3.如何实现统计点击最高的记录？

日志分析实战之清洗日志小实例7：查看样本数据，保存统计数据到文件
http://www.aboutyun.com/forum.php?mod=viewthread&tid=22953
1.如何从所有数据中，抽取样本查看？
2.如何保存结果到hdfs？
3.saveAsTextFile的作用是什么？

机器学习入门常犯错误总结
http://www.aboutyun.com/forum.php?mod=viewthread&tid=22955

1. 为什么不能一直使用默认损失函数？

2. 为什么不能所有问题使用一种算法？

3. 如何正确处理异常值？

4. 如何正确处理周期特征？

5. 为什么需要特征归一化后使用正则化？

6. 为什么线性回归或 logistic 回归的系数绝对值无法当做判断特征的重要性？

Scala的map实现key和value排序及各种排序比较等知识讨论
http://www.aboutyun.com/forum.php?mod=viewthread&tid=22942
1.map能否直接排序？
2.如何转换，才能排序？
3.排序结果可以存储在哪两个集合中？
4._*如何使用？
5.排序函数中，哪个可以进行升序和降序排列？
6.他们的排序性能如何?

深入理解Hadoop HA机制
http://www.aboutyun.com/forum.php?mod=viewthread&tid=22935
1、Hadoop1.x和Hadoop2.x架构有哪些区别？
2、什么是QJM？
3、如何理解QJM框架？
4、如何理解主备切换机制？

资源：
CDH5.11.0安装文档
http://www.aboutyun.com/forum.php?mod=viewthread&tid=22932

数据仓库与数据挖掘(廖开际)第六章:数据预处理
http://www.aboutyun.com/forum.php?mod=viewthread&tid=22943

about云日志分析实战之清洗、网站统计小教程
http://www.aboutyun.com/forum.php?mod=viewthread&tid=22936

问答：
spark连接mongodb 耗时特别长是什么原因啊
http://www.aboutyun.com/forum.php?mod=viewthread&tid=22937

[oozie] Error: HTTP error code: 500 : Internal Server Error
http://www.aboutyun.com/forum.php?mod=viewthread&tid=22929

你们的大数据团队有多少成员
http://www.aboutyun.com/forum.php?mod=viewthread&tid=22923

图文精华

2017年about云10月第04周经典帖子总结

活跃会员

热心会员

优秀版主

论坛元老

推荐 /2