如何改变Hadoop-randomwrite

最近在使用Hadoop时候发现：
老版的Hadoop 利用randomwrite
命令“hadoop jarhadoop-mapreduce-examples-1.1.2.jar randomwriter-Dtest.randomwriter.maps_per_host=2 -D test.randomwrite.bytes_per_map=1024 /data”
通过修改-Dtest.randomwriter.maps_per_host 和-D test.randomwrite.bytes_per_map两个参数能确实的改变randomwrite的数据大小

但是更新到2.2.0以上的yarn版本
以上命令却无论如何都只生成了11GB的数据，希望大家能给些建议

Alkaloid0515 · 发表于 2015-5-8 10:31:24

用下面命令尝试下：
* $Hadoop/share/hadoop/mapreduce
* jar hadoop-mapreduce-examples-2.5.1.jar randomwriter
* test.randomwriter.maps_per_host=2 -D test.randomwrite.bytes_per_map=1024 /sort-data

夏洛特猫 · 发表于 2015-5-8 11:24:20

谢谢您的回复，但是还是不行，还是11GB的数据大小：
hadoop jar hadoop-mapreduce-examples-2.2.0.jar randomwriter test.randomwriter.maps_per_host=4 -D test.randomwrite.bytes_per_map=2048 /sort-data

数据：test.randomwriter.maps_per_host=4
du -sh 依然是11GB

arsenduan · 发表于 2015-5-8 11:42:11

夏洛特猫发表于 2015-5-8 11:24
谢谢您的回复，但是还是不行，还是11GB的数据大小：
hadoop jar hadoop-mapreduce-examples-2.2.0.jar ran ...

好像配置文件也能修改，通过配置文件修改下。
看看到底是哪个因素影响了

jixianqiuxue · 发表于 2015-5-8 12:47:36

夏洛特猫发表于 2015-5-8 11:24
谢谢您的回复，但是还是不行，还是11GB的数据大小：
hadoop jar hadoop-mapreduce-examples-2.2.0.jar ran ...

MapReduce Test with Sort

hadoop提供了一个MapReduce 程序，可以测试整个MapReduce System。此基准测试分三步：

# 产生random data

# sort data

# validate results

步骤如下：

1. 产生random data

[mw_shl_code=applescript,true]yarn jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.2.0.jar randomwriter random-data[/mw_shl_code]

用RandomWriter产生random data, 在yarn上运行RandomWriter会启动一个MapReduce job, 每个node上默认启动10个map task, 每个map 会产生1GB的random data.

修改默认参数： test.randomwriter.maps_per_host, test.randomwrite.bytes_per_map

来源：

hadoop2（2.2）集群基准测试

夏洛特猫 · 发表于 2015-5-8 14:31:37

arsenduan 发表于 2015-5-8 11:42
好像配置文件也能修改，通过配置文件修改下。
看看到底是哪个因素影响了

谢谢您，如果通过配置文件修改，那样的方法就会被一起掉，如果生成不同数据就要修改/etc/hadoop 中的文件，那randomwrite 就没有意义了，而且官网也说通过修改-Dtest.randomwriter.maps_per_host 和-D test.randomwrite.bytes_per_map，可以确实的改变数据量，但是却没有。

夏洛特猫 · 发表于 2015-5-8 14:34:20

jixianqiuxue 发表于 2015-5-8 12:47
MapReduce Test with Sorthadoop提供了一个MapReduce 程序，可以测试整个MapReduce System。此基准测试分 ...

感谢您的回复，
您这条命令我也运行过了，不加任何参数，直接输入randomwrite 的结果也是11GB 不知道yarn结构的hadoop为什么，而且运行前出现了10Map的提示，map数在新版本中只能修改内存分配，但是如果通过修改内存分配，那生成不同数据就要做N次修改etc文件，感觉应该不会这样。。。

jixianqiuxue · 发表于 2015-5-8 16:48:32

夏洛特猫发表于 2015-5-8 14:34
感谢您的回复，
您这条命令我也运行过了，不加任何参数，直接输入randomwrite 的结果也是11GB 不知道yar ...

试试这个

用一个MapReduce job来并行读取/写入文件，每个文件在一个独立的map task里被读取或写入，而map的输出用来收集该文件被执行过程中的统计数据，

test1 写入２个文件，每个10MB

[mw_shl_code=shell,true]yarn jar share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-2.2.0-tests.jar TestDFSIO -write -nrFiles 2 -fileSize 10[/mw_shl_code]

sprite101 · 发表于 2015-5-8 17:18:12

夏洛特猫 · 发表于 2015-5-11 09:10:59

jixianqiuxue 发表于 2015-5-8 16:48
试试这个

用一个MapReduce job来并行读取/写入文件，每个文件在一个独立的map task里被读取或写 ...

谢谢您的回复：
TestDFSIO这个命令是通过map-reduce的数据生成主要是通过这个过程用来测试hdfs的I/O，而产生的数据形式无法用于其他负载，我其实想问的是通过randomwrite 的hadoop自带系统生成sort能运行的seq格式的数据，但是让然很感谢您的回复

图文精华

如何改变Hadoop-randomwrite

已有(10)人评论

最佳新人

活跃会员

热心会员

推荐 /2