本帖最后由 howtodown 于 2013-12-3 20:05 编辑
(1)问:yarn 里的 aggregation,能阐述下吗?
答:将作业日志自动上传到 hdfs 上,遮掩更便于统一分析和处理
(2)问:这个我知道,我想知道 yarn.log-aggregation-enable,配置啦这个值,好像并不生效,
答:在各个节点上 更新,重启就行了
(3)问:负载平衡在 spark/shark 上基本不存在,但是在 Hadoop 上是个严重的问题,从系统层面
如何规避?
答:hadoop 调度器有负载均衡算法,比如 fair scheduler 就行
(4)问:YARN schedule 的 capacity 调度器为什么没有实现负载均衡的机制呀
答:这个没有
(5)问:在任务 skew 时,fair scheduler 并不能解决问题吧
答:解决不了,hadoop 也解决不了,需要由应用层解决
(6)问:怎么学习 hadoop 啊
答:从实践学起,从搭建一个 hadoop 环境开始吧,呵呵
(7)问:那么我就问你一个问题 datanode 有上千万个小文件 每次 datanode 上报自身文件信息
时候 总是延时 你怎么解决 ?
答:不要存太多小文件
(8)问:我知道,但我发现很多小文件 时候 ,开发们 已经放上去了
答:把小文件合并成大文件
(9)问:开发总是 不按照 我规定的做
所以说 你回答这个问题 “把小文件合并为大文件” 相当于没有回答
如果那些小文件不能合并呢 ?
能不能除了 加长上报延时的时间 另觅它法呢 ?
答:hdfs 不擅长处理小文件
如果有大量小文件,不要使用 hdfs,你们的方案就选错了,无法弥补,一个男人,非要让他做妓女,行吗
(10)问:其实 hdfs 是可以处理小文件的 ,只是 你不知道修改一点代码在处理过程中不会遇到
datanode 假死以及延时问题了.你对 hdfs 这么了解 ,你知道需要修改 那部分代码么,就按照网上固定思维说
hdfs 不能处理小文件,或者处理小文件 效率不行 ? 能有自己的思维和想法么 ?
答:一般公司,不推荐自己修改 hadoop 内核,尤其是用在线上环境中时,除非你们技术团
队有实力保证修改后不会出现问题。
(11)问:你们 mapReduce 之后的数据,是导入 hbase,还是导入 mysql 的?
答:报表数据在 mysql 中,后续改成 hbase
(12)问:原始数据->导入到 hdfs->mr 计算->把结果导入 hbase->通过脚本导入 mysql
答:是的
(13)问:原始数据->导入到 hdfs- 这一步,你们是通过 sqoop 吗?
答:sqoop 还是比较复杂的,如果你们的一个用比较单一,可以自己写一个 mapreduce 作业
实现,当然,你觉得这样麻烦,那就用 sqoop。
(14)问:公司到底选择 apach,还是 cdh 的好啊。
答:CDH
(15)问:现在 YARN 中支持 CPU 资源隔离吗
答:支持,采用的 cgroups
(16)问:你能用一句话告诉我 hadoop 的作用是什么吗 精辟的一句话
答:分布式存储和计算
(17)hadoop初学者常犯的错误有那些
答:命令经常打错,然后问一大堆问题
(18)搭建集群有的同学不知道几台机器
答:完全分布式至少需要三台,学习使用安装单机版
(19)hadoop,hdfs,hbase,hive他们之间的关系是什么、
hdfs是一个文件系统,如同window文件系统,habse是一种nosql数据库,hive是补充habase缺陷,可以转换数据库sql语句为mapreduce,为数据库工程师服务。
|
|