分享

把Nutch爬虫部署到Hadoop集群上

nettman 2015-4-17 15:11:00 发表于 实操演练 [显示全部楼层] 回帖奖励 阅读模式 关闭右栏 3 29532
提示: 作者被禁止或删除 内容自动屏蔽

已有(3)人评论

跳转到指定楼层
tang 发表于 2015-6-19 21:26:12
回复

使用道具 举报

Jeelon 发表于 2016-5-27 09:23:22
谢谢分享心得!
大神,请问下在分布式模式下执行
[mw_shl_code=shell,true]$ hadoop jar ./runtime/deploy/apache-nutch-1.7.job org.apache.nutch.crawl.Crawl urls -dir TestCrawl -depth 2[/mw_shl_code]
和执行
[mw_shl_code=shell,true] ./runtime/deploy/bin/nutch crawl urls -dir data -depth 2[/mw_shl_code]
有区别吗?
回复

使用道具 举报

Jeelon 发表于 2016-6-2 17:30:28
完全按照你的 版本和集群方式 报错如下:
[mw_shl_code=shell,true]16/06/02 02:11:00 INFO client.RMProxy: Connecting to ResourceManager at CentOS641/192.168.159.120:8032
Exception in thread "main" java.lang.IllegalArgumentException: Wrong FS: file:/home/root/tmp/mapred/temp/inject-temp-2069906004, expected: hdfs://CentOS641:8020
        at org.apache.hadoop.fs.FileSystem.checkPath(FileSystem.java:642)
        at org.apache.hadoop.hdfs.DistributedFileSystem.getPathName(DistributedFileSystem.java:181)
        at org.apache.hadoop.hdfs.DistributedFileSystem.access$000(DistributedFileSystem.java:92)
        at org.apache.hadoop.hdfs.DistributedFileSystem$11.doCall(DistributedFileSystem.java:585)
        at org.apache.hadoop.hdfs.DistributedFileSystem$11.doCall(DistributedFileSystem.java:581)
        at org.apache.hadoop.fs.FileSystemLinkResolver.resolve(FileSystemLinkResolver.java:81)
        at org.apache.hadoop.hdfs.DistributedFileSystem.delete(DistributedFileSystem.java:581)
        at org.apache.nutch.crawl.Injector.inject(Injector.java:301)
        at org.apache.nutch.crawl.Crawl.run(Crawl.java:132)
        at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:70)
        at org.apache.nutch.crawl.Crawl.main(Crawl.java:55)
        at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
        at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:57)
        at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
        at java.lang.reflect.Method.invoke(Method.java:606)
        at org.apache.hadoop.util.RunJar.main(RunJar.java:212)[/mw_shl_code]


请师兄帮忙看看啊?
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条