如何设定Pig的输出文件数量以及设定key值在同一个输出的文件中
在开发中遇到,使用Pig产生多个输出文件举例:使用MR程序最后悔产生一个输出文件夹,文件夹中包含2个文件,一个是part-r-000一个是_SUCCESS文件
我现在想做的就是pig能设定产生多个part-r-000?的文件,并且同一种key在这个par--r-000的文件中
没有找到如何实现的方法,望指教
输出文件的个数有reduce决定,也就是说如果在pig中设置多个reduce即可实现,多个输出文件。
如果想同一个key输出到同一个分区,在hadoop中有一个分区函数,即可实现这个功能,也就是说在pig中找到这个分区的标准,就可以实现同一个key到同一个分区。
Partitioner: 把数据发送到不同的Reduce
Parallel 设置pig的reduce进程个数
--parallel.pig
daily = load 'NYSE_daily' as (exchange, symbol, date, open, high, low, close,
volume, adj_close);
bysymbl = group daily by symbol parallel 10;
parallel只针对一条语句,如果希望脚本中的所有语句都有10个reduce进程,可以使用 set default_parallel 10命令
页:
[1]