分享

如何设定Pig的输出文件数量以及设定key值在同一个输出的文件中

Joker 发表于 2014-10-23 16:43:47 [显示全部楼层] 回帖奖励 阅读模式 关闭右栏 2 12146
在开发中遇到,使用Pig产生多个输出文件

举例:使用MR程序最后悔产生一个输出文件夹,文件夹中包含2个文件,一个是part-r-000一个是_SUCCESS文件

我现在想做的就是pig能设定产生多个part-r-000?的文件,并且同一种key在这个par--r-000的文件中

没有找到如何实现的方法,望指教

已有(2)人评论

跳转到指定楼层
bioger_hit 发表于 2014-10-23 18:06:13
输出文件的个数有reduce决定,也就是说如果在pig中设置多个reduce即可实现,多个输出文件。
如果想同一个key输出到同一个分区,在hadoop中有一个分区函数,即可实现这个功能,也就是说在pig中找到这个分区的标准,就可以实现同一个key到同一个分区。


  Partitioner: 把数据发送到不同的Reduce


回复

使用道具 举报

desehawk 发表于 2014-10-23 18:42:25
Parallel 设置pig的reduce进程个数

--parallel.pig
daily   = load 'NYSE_daily' as (exchange, symbol, date, open, high, low, close,
            volume, adj_close);
bysymbl = group daily by symbol parallel 10;
parallel只针对一条语句,如果希望脚本中的所有语句都有10个reduce进程,可以使用 set default_parallel 10命令

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条