搜索
搜 索
本版
文章
帖子
用户
图文精华
hadoop-2.6.0+zookeeper-3.4.6+hbase-1.0.0+hive-1.1.0完全分布 ...
首页
Portal
专题
BBS
面试
更多
登录
注册
用户组:游客
主题
帖子
云币
我的帖子
我的收藏
我的好友
我的勋章
设置
退出
导读
淘贴
博客
群组
社区VIP
APP下载
今日排行
本周排行
本周热帖
本月排行
本月热帖
会员排行
About云-梭伦科技
»
专题
›
交流区
›
技术交流
›
HDFS
›
请教个HDFS中文件大小的问题
0
5
0
分享
请教个HDFS中文件大小的问题
skaterxu
发表于 2013-10-25 10:45:15
[显示全部楼层]
阅读模式
关闭右栏
5
8800
我需要把原始数据文件存储在HDFS中,然后通过MapReduce分析,好像听说存入HDFS的文件大小是64M的话处理效率会高一点,有没有这个说法啊吗?
之前我自己测试的结果是,对于一个4.8G的数据:分为一个整体的文件(4.8G)和80个64M的小文件两种情况,测试发现处理一个4.8G的大文件的效率要高于处理80个64M的小文件,哪位高手能帮忙解释一下啊吗?
回复
使用道具
举报
提升卡
置顶卡
沉默卡
喧嚣卡
变色卡
千斤顶
显身卡
已有(5)人评论
电梯直达
正序浏览
a2325145
发表于 2013-10-25 10:45:15
你的测试可以说是对的,但也不是公平的。影响性能主要原因是“就近计算”,不知道80个文件是如何分布的,文件大小不一定64M是快,但肯定不能小于1M,估计至少10M以上才体现优势,如果单个文件很大,块大小设置成100~200M,性能应当都没,这个还和机器数量有关,因为相对越小,可以分布得越均衡。80个64M大小的文件,对单个文件来说,就是最不均衡的极端。这就好切分西瓜啦。
回复
使用道具
举报
显身卡
leo_1989
发表于 2013-10-25 10:45:15
谢谢版主的解答,我测试用的两台datanode。数据是从namenode上导入到HDFS中的,如何查看文件的分布呢,用./hadoop fs -lsr检查的话两个datanode上面都有所有的80个64M文件啊。另外,按照版主的意思的话,对于总共4.8G的数据,文件大小分成多少时理论上处理效率会比较高呢吗?谢谢啦
回复
使用道具
举报
显身卡
poptang4
发表于 2013-10-25 10:45:15
刚看了一下,应该是从哪个datanode上传的就存储在哪个机器上,从namenode上传时自动分配的吧吗?那如果两台所有数据在两台datanode上基本是均匀分配的话,文件大小设置成多大效率更高吗?
回复
使用道具
举报
显身卡
goldtimes
发表于 2013-10-25 10:45:15
d顶 eyjan的说法,呵呵
建议楼主把你测试的环境大概说下:多少机器,80G文件分块后分布情况等这些是比较重要的。
文件的切分大小跟你的机器性能 还有机器的数量是有关系的:
好比你80G用一台机器算 肯定来说比10台机器一起算要慢的吧。
回复
使用道具
举报
显身卡
top_gloria
发表于 2013-10-25 10:45:15
我需要把原始数据文件存储在HDFS中,然后通过MapReduce分析,好像听说存入HDFS的文件大小是64M的话处理效率 ...
needle2 发表于 2010-9-28 10:16
4.8G作为一个整体吗?你是在Hadoop上做的测试吗?
回复
使用道具
举报
显身卡
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
本版积分规则
发表回复
回帖后跳转到最后一页
发表新帖
skaterxu
新手上路
关注
51
主题
128
帖子
3
粉丝
TA的主题
ASO:百度移动搜索手机站优化指南
2013-12-17
PhoneGAP写的应用会经常意外退出
2013-12-17
cygwin下配置的hadoop为什么不能用jps命令
2013-12-11
The Parts of a Hadoop MapReduce Job
2013-10-26
browse the fielsystem 后 出现的 data ,system,user三个目录的作用
2013-10-25
24小时热文
互联网大厂年终福利曝光:看看别人家老板怎
矩阵分析引论罗家洪(第四版)
像高手一样发言:七种常见工作场景的说话之
携程允许员工春节回乡办公2个月
数据治理实施方案
关闭
推荐
/2
中文版ChatGPT
1.无需魔法 2.提高编程效率 3.提高文档能力
查看 »
新手帮助
新手帮助:注册遇到问题,领取资源,加入铁粉群,不会使用搜索,如何获取积分等
查看 »
意见
反馈