分享

如何改变Hadoop-randomwrite

夏洛特猫 发表于 2015-5-8 10:08:19 [显示全部楼层] 回帖奖励 阅读模式 关闭右栏 10 24076
最近在使用Hadoop时候发现:
老版的Hadoop 利用randomwrite
命令“hadoop jarhadoop-mapreduce-examples-1.1.2.jar randomwriter-Dtest.randomwriter.maps_per_host=2 -D test.randomwrite.bytes_per_map=1024 /data
通过修改-Dtest.randomwriter.maps_per_host  和-D test.randomwrite.bytes_per_map两个参数能确实的改变randomwrite的数据大小


但是更新到2.2.0以上的yarn版本
以上命令却无论如何 都只生成了11GB的数据,希望大家能给些建议

已有(10)人评论

跳转到指定楼层
Alkaloid0515 发表于 2015-5-8 10:31:24


用下面命令尝试下:
* $Hadoop/share/hadoop/mapreduce
* jar hadoop-mapreduce-examples-2.5.1.jar randomwriter
* test.randomwriter.maps_per_host=2 -D test.randomwrite.bytes_per_map=1024 /sort-data

回复

使用道具 举报

夏洛特猫 发表于 2015-5-8 11:24:20
谢谢您的回复,但是还是不行,还是11GB的数据大小:
hadoop jar hadoop-mapreduce-examples-2.2.0.jar randomwriter test.randomwriter.maps_per_host=4 -D test.randomwrite.bytes_per_map=2048 /sort-data

数据:test.randomwriter.maps_per_host=4
du -sh 依然是11GB
回复

使用道具 举报

arsenduan 发表于 2015-5-8 11:42:11
夏洛特猫 发表于 2015-5-8 11:24
谢谢您的回复,但是还是不行,还是11GB的数据大小:
hadoop jar hadoop-mapreduce-examples-2.2.0.jar ran ...

好像配置文件也能修改,通过配置文件修改下。
看看到底是哪个因素影响了
回复

使用道具 举报

jixianqiuxue 发表于 2015-5-8 12:47:36
夏洛特猫 发表于 2015-5-8 11:24
谢谢您的回复,但是还是不行,还是11GB的数据大小:
hadoop jar hadoop-mapreduce-examples-2.2.0.jar ran ...

MapReduce Test with Sort
hadoop提供了一个MapReduce 程序,可以测试整个MapReduce System。此基准测试分三步:
# 产生random data
# sort data
# validate results
步骤如下:
1. 产生random data
[mw_shl_code=applescript,true]yarn jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.2.0.jar randomwriter random-data[/mw_shl_code]

用RandomWriter产生random data, 在yarn上运行RandomWriter会启动一个MapReduce job, 每个node上默认启动10个map task, 每个map 会产生1GB的random data.
修改默认参数: test.randomwriter.maps_per_host, test.randomwrite.bytes_per_map

来源:

回复

使用道具 举报

夏洛特猫 发表于 2015-5-8 14:31:37
arsenduan 发表于 2015-5-8 11:42
好像配置文件也能修改,通过配置文件修改下。
看看到底是哪个因素影响了

谢谢您,如果通过配置文件修改,那样的方法就会被一起掉,如果生成不同数据就要修改/etc/hadoop 中的文件,那randomwrite 就没有意义了,而且官网也说通过修改-Dtest.randomwriter.maps_per_host  和-D test.randomwrite.bytes_per_map,可以确实的改变数据量,但是却没有。
回复

使用道具 举报

夏洛特猫 发表于 2015-5-8 14:34:20
jixianqiuxue 发表于 2015-5-8 12:47
MapReduce Test with Sorthadoop提供了一个MapReduce 程序,可以测试整个MapReduce System。此基准测试分 ...

感谢您的回复,
您这条命令我也运行过了,不加任何参数,直接输入randomwrite 的结果也是11GB 不知道yarn结构的hadoop为什么,而且运行前出现了10Map的提示,map数在新版本中只能修改内存分配,但是如果通过修改内存分配,那生成不同数据就要做N次修改etc文件,感觉应该不会这样。。。
回复

使用道具 举报

jixianqiuxue 发表于 2015-5-8 16:48:32
夏洛特猫 发表于 2015-5-8 14:34
感谢您的回复,
您这条命令我也运行过了,不加任何参数,直接输入randomwrite 的结果也是11GB 不知道yar ...



试试这个

用一个MapReduce job来并行读取/写入文件, 每个文件在一个独立的map task里被读取或写入,而map的输出用来收集该文件被执行过程中的统计数据,
test1 写入2个文件,每个10MB


[mw_shl_code=shell,true]yarn jar share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-2.2.0-tests.jar TestDFSIO -write -nrFiles 2 -fileSize 10[/mw_shl_code]
回复

使用道具 举报

sprite101 发表于 2015-5-8 17:18:12
回复

使用道具 举报

夏洛特猫 发表于 2015-5-11 09:10:59
jixianqiuxue 发表于 2015-5-8 16:48
试试这个

用一个MapReduce job来并行读取/写入文件, 每个文件在一个独立的map task里被读取或写 ...

谢谢您的回复:
    TestDFSIO这个命令是通过map-reduce的数据生成主要是通过这个过程用来测试hdfs的I/O,而产生的数据形式无法用于其他负载,我其实想问的是通过randomwrite 的hadoop自带系统生成sort能运行的seq格式的数据,但是让然很感谢您的回复
回复

使用道具 举报

12下一页
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条