分享

Java嵌入pig编程-----运行wordcount

sstutu 发表于 2014-2-17 01:05:58 [显示全部楼层] 回帖奖励 阅读模式 关闭右栏 3 17105
本帖最后由 sstutu 于 2014-2-17 01:51 编辑



可以带着下面问题来阅读:
1.pig脚本在Java中如何实现?
2.pig编程需要引入那个包?
3.如何编译运行含pig.jar的程序?

在Java编程中使用pig,和Java中通过JDBC使用sql是一样的。

我们假设需要计数的一个文件中的每个单词出现的次数。我们假定已经通过 EvalFunction 标记分析一行文本并返回所有的单词。函数位于位于/ mylocation /tokenize.jar。

PigLatin 脚本为
  1. register /mylocation/tokenize.jar
  2. A = load 'mytext' using TextLoader();
  3. B = foreach A generate flatten(tokenize($0));
  4. C = group B by $1;
  5. D = foreach C generate flatten(group), COUNT(B.$0);
  6. store D into 'myoutput';
复制代码
在Java编程,实现如下:
  1. import java.io.IOException;
  2. import org.apache.pig.PigServer;
  3. public class WordCount {
  4. public static void main(String[] args) {
  5. PigServer pigServer = new PigServer();
  6. try {
  7. pigServer.registerJar("/mylocation/tokenize.jar");
  8. runMyQuery(pigServer, "myinput.txt";
  9. }
  10. catch (IOException e) {
  11. e.printStackTrace();
  12. }
  13. }
  14. public static void runMyQuery(PigServer pigServer, String inputFile) throws IOException {
  15. pigServer.registerQuery("A = load '" + inputFile + "' using TextLoader();");
  16. pigServer.registerQuery("B = foreach A generate flatten(tokenize($0));");
  17. pigServer.registerQuery("C = group B by $1;");
  18. pigServer.registerQuery("D = foreach C generate flatten(group), COUNT(B.$0);");
  19. pigServer.store("D", "myoutput");
  20. }
  21. }
复制代码
首先用下面命令编译
  1. javac -cp <path>pig.jar WordCount.java
复制代码
编译成功然后运行程序
  1. java -cp <path>pig.jar WordCount
复制代码
以上内容简略翻译,不当之处,欢迎指正
详细查看原文链接Embedding Pig In Java Programs

欢迎加入about云群425860289432264021 ,云计算爱好者群,关注about云腾讯认证空间

已有(3)人评论

跳转到指定楼层
ysh_lxq 发表于 2015-11-6 10:51:51
我使用的时候new PigServer()时需要加入参数,不知楼主是如何解决的
回复

使用道具 举报

rano1986 发表于 2016-4-2 18:49:58
new PigServer() 参数是local或者mapreduce,但是在开发环境中如何制定环境配置?我eclipse运行时候就在new PigServer("local")报找不到配置文件。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条