java转大数据，面试遇到的一些生产环境中问题求解答-面试区-About云-梭伦科技

3656562 发表于 2017-2-27 16:00:51

java转大数据，面试遇到的一些生产环境中问题求解答

java转大数据，东西学得差不多了，就是没有具体的实战经验，面试时遇到了这些问题懵逼了只能瞎蒙，不知道怎么说比较合适，求大神帮帮忙，给点建议，让我面试的时候说得没有那么离谱
1.你们的集群规模？
2.你们业务数据量多大？
3.你们提交的job任务大概有多少个？这些job执行完大概用多少时间？
4.你的项目提交到job的时候数据量有多大？

sstutu 发表于 2017-2-27 16:27:26

1.你们的集群规模？
2.你们业务数据量多大？
3.你们提交的job任务大概有多少个？这些job执行完大概用多少时间？
4.你的项目提交到job的时候数据量有多大？
#################################
上面工作并没有问实际的知识，他的目的是想问你干没干过。如果是这么问的话，其实应该有两方面。
第一，楼主给人的感觉是没有干过这方面的工作，所以才会被问这些问题，而没有涉及到知识的深度
第二，这个公司对大数据人才非常的缺，也就是大数据人才非常少，了解的不多。
因此上面回答是一方面，即使上面都回答了，其实还有另外的一个问题，其实需要让别人相信或则知道你有大数据经验。
无论你是真有经验，还是假有经验，关键是自己要能否掌握知识，确实进入公司，能干活。

对于集群的规模，大的有上千台，比如百度
Spark技术解析及其在百度最大单集群1300台的应用实践
http://www.aboutyun.com/forum.php?mod=viewthread&tid=11317

Spark技术解析及其在百度最大单集群1300台的应用实践2
http://www.aboutyun.com/forum.php?mod=viewthread&tid=11318

百度Hadoop分布式系统由4000节点组成集群

http://www.aboutyun.com/forum.php?mod=viewthread&tid=6533
小的有8，9台，20来台不等。内存最小的16G到上百G等。
对于业务量，其实跟你的简历是有关系的。比如日志。
业务关系是什么，使用了哪些框架。
日志是每天产生的，比较小的网站产生1G左右，也有1T的。框架比如spark，flume，kafka,hive等等。其实不止这些，还有一些Java框架，mysql等。
对于提交的任务，如果你确实做过模拟的项目，他跟数据量是有关系的。如果连基本的模拟项目都没有做过，建议还是先练练。
提交job的数据量，是说你提交的job需要处理多少数据量，尽量不要过多，否则集群会处理不了。也就是当天产生的数据，当天或则当时就能处理掉。

3656562 发表于 2017-3-1 13:51:59

sstutu 发表于 2017-2-27 16:27
1.你们的集群规模？
2.你们业务数据量多大？
3.你们提交的job任务大概有多少个？这些job执行完大概用多少 ...

谢谢大神，其他关于大数据原理架构之类的问题和java的问题都回答得不错，主要就是关于实际生产环境的这几个问题回答地太虚了，不知道合不合理。我是这样回答的：
Spark集群22台，每天处理两三亿条点击流日志，100G左右，提交五六个job，处理时间为三四十分钟。
还有个问题答不上来：sparkstreaming或者storm实时处理的话每秒可以多少？

页: [1]

About云-梭伦科技's Archiver

java转大数据，面试遇到的一些生产环境中问题求解答