1. 为什么要选择Spark Streaming和Elasticsearch?
2. 如何解决异常重启和升级重导等问题带来的稳定性问题?
3. 为解决低延迟问题,需要在输入端和输出端做什么处理?
4. Elasticsearch在实时分析平台的优势是什么?
5. 如何提高整个平台的可扩展性?
无监督式机器学习之聚类分析及Autoencoder应用方向介绍
1、什么是无监督式机器学习?
2、聚类分析的流程有哪些?
3、什么是Autoencoder算法?
spark开发基础之从关键字、函数入门Scala
1.apply的作用是什么?
2.yield什么情况下使用?
3.partition如何使用?
Spark 日志解析示例包括运行、输出结果、源代码
1.本文分析的日志格式什么样的?
2.如何通过代码实现的?
3.分析网页计分例子如何实现的?
将 Spark Streaming + Kafka direct 的 offset 存入Zookeeper并重用
1. 使用Direct API时为什么需要见offset保存到Zookeeper中?
2. 如何将offset存入到Zookeeper中?
3. 如何解决Zookeeper中offset过期问题?
资源:
谁说菜鸟不会数据分析-(完整)
Python 之 django-1-8入门
中国智慧城市大数据应用市场研究白皮书
spark开发基础之Scala资源汇总
移劢大数据平台架构实践
算法之道
大数据岗位的面试总结【六个公司】
问答:
intellij idea开发的spark应用spark-submit提交正常运行,直接在idea提交有问题