java转大数据,面试遇到的一些生产环境中问题求解答
java转大数据,东西学得差不多了,就是没有具体的实战经验,面试时遇到了这些问题懵逼了只能瞎蒙,不知道怎么说比较合适,求大神帮帮忙,给点建议,让我面试的时候说得没有那么离谱1.你们的集群规模?
2.你们业务数据量多大?
3.你们提交的job任务大概有多少个?这些job执行完大概用多少时间?
4.你的项目提交到job的时候数据量有多大?
1.你们的集群规模?
2.你们业务数据量多大?
3.你们提交的job任务大概有多少个?这些job执行完大概用多少时间?
4.你的项目提交到job的时候数据量有多大?
#################################
上面工作并没有问实际的知识,他的目的是想问你干没干过。如果是这么问的话,其实应该有两方面。
第一,楼主给人的感觉是没有干过这方面的工作,所以才会被问这些问题,而没有涉及到知识的深度
第二,这个公司对大数据人才非常的缺,也就是大数据人才非常少,了解的不多。
因此上面回答是一方面,即使上面都回答了,其实还有另外的一个问题,其实需要让别人相信或则知道你有大数据经验。
无论你是真有经验,还是假有经验,关键是自己要能否掌握知识,确实进入公司,能干活。
对于集群的规模,大的有上千台,比如百度
Spark技术解析及其在百度最大单集群1300台的应用实践
http://www.aboutyun.com/forum.php?mod=viewthread&tid=11317
Spark技术解析及其在百度最大单集群1300台的应用实践2
http://www.aboutyun.com/forum.php?mod=viewthread&tid=11318
百度Hadoop分布式系统由4000节点组成集群
http://www.aboutyun.com/forum.php?mod=viewthread&tid=6533
小的有8,9台,20来台不等。内存最小的16G到上百G等。
对于业务量,其实跟你的简历是有关系的。比如日志。
业务关系是什么,使用了哪些框架。
日志是每天产生的,比较小的网站产生1G左右,也有1T的。框架比如spark,flume,kafka,hive等等。其实不止这些,还有一些Java框架,mysql等。
对于提交的任务,如果你确实做过模拟的项目,他跟数据量是有关系的。如果连基本的模拟项目都没有做过,建议还是先练练。
提交job的数据量,是说你提交的job需要处理多少数据量,尽量不要过多,否则集群会处理不了。也就是当天产生的数据,当天或则当时就能处理掉。
sstutu 发表于 2017-2-27 16:27
1.你们的集群规模?
2.你们业务数据量多大?
3.你们提交的job任务大概有多少个?这些job执行完大概用多少 ...
谢谢大神,其他关于大数据原理架构之类的问题和java的问题都回答得不错,主要就是关于实际生产环境的这几个问题回答地太虚了,不知道合不合理。我是这样回答的:
Spark集群22台,每天处理两三亿条点击流日志,100G左右,提交五六个job,处理时间为三四十分钟。
还有个问题答不上来:sparkstreaming或者storm实时处理的话每秒可以多少?
页:
[1]