分享

Nutch-2.2.1系列之二编译部署Nutch及常见问题

问题导读
1、要学习Nutch2.2.1的功能,自己如何编译Nutch呢?
2、编译Nutch需要使用Ant,需要做好哪些相应的配置?
3、如何检查编译是否成功?




本文接上一篇:Nutch-2.2.1学习之一Nutch简介||及jar包问题解决

Nutch1.x从1.7版本开始不再提供完整的部署文件,只提供源代码文件及相关的build.xml文件,这就要求用户自己编译Nutch,而整个Nutch2.x版本都不提供编译完成的文件,所以想要学习Nutch2.2.1的功能,就必须自己手动编译文件。这篇文章主要介绍了如何编译Nutch2.2.1版本,同时罗列了一些编译过程中遇到的问题及解决方案。当然不可能列举所有的问题,希望大家可以补充自己遇到的一些问题及解决方法。由于编译Nutch需要使用Ant,以下操作都假设已经安装好Java和Ant,并做好了相应的配置,如JAVA_HOME、ANT_HOME及PATH路径。

1.   要编译Nutch2.2.1,当然要先下载对应的版本,可以从官网直接下载,下载的URL为http://archive.apache.org/dist/nutch/2.2.1/,选择apache-nutch-2.2.1-src.tar.gz下载,我将下载的文件保存在/home/hadoop/BigData中,然后执行tar命令,将文件解压到/home/hadoop目录下。如下图所示:
1.png



2.   进入apache-nutch-2.2.1目录,执行ls –al命令查看nutch的目录结构,与1.x版本的不同在于,nutch2.x不再有bin目录了,有了新的ivy目录用于使用ivy管理nutch。
2.png


3.   在nutch主目录下执行ant命令,对ant源代码进行编译。根据各自的带宽情况,所需要的时间是不一样的。下载过程及成功信息如下面两张图所示,在第二张图的最后,可以看到提示信息BUILD SUCCESSFUL,说明编译成功,若提示信息为BUILD FAILED,则说明编译失败,需要根据编译过程中输出的信息查找错误原因。
3.png

4.png


4.   编译成功后,再执行ls –al命令,发现目录结构跟编译前发现了变化。新增了build和runtime目录,这两个目录也是和1.x版本不同的地方之一。
5.png


下面会介绍可能会出现的几种错误原因,希望对大家有所帮助。第一个错误如下图所示(但该错误不会影响到编译成功与否),这个问题可以通过查看build.xml,并修改其中的内容解决。具体方法是,在buil.xml中查找org/sonar/ant/antlib.xml,在840行发现该内容。通过查看源文件,build的过程会在ant或者mysql的lib目录中查找sonar的jar包,在没有配置这些属性的情况下找不到jar包就出现了该问题。大家可以将sonar的jar包放到当前目录,并将build文件中的classpath修改为当前目录,或者设置ant或者mysql属性,都可以解决该问题。如上文已经提到过的,此问题不会影响到编译成功与否。
6.png


另一个影响到编译结果的问题如下图所示,根据输出信息可知,ivy从本地连接http://repo1.maven.org/maven2/仓库时失败。这个问题可以通过用http://mirrors.ibiblio.org/maven2/ URL替换\ivy目录下ivysettings.xml中的http://repo1.maven.org/maven2/解决。代码位置为<property name="repo.maven.org" value="http://repo1.maven.org/maven2/" override="false"/>
7.png

或者修改hosts文件,添加72.21.81.253    repo1.maven.org,该方法也可以解决下载问题



相关文章推荐





Nutch-2.2.1系列之一Nutch简介||及jar包问题解决
http://www.aboutyun.com/thread-10048-1-1.html


Nutch-2.2.1系列之三Nutch配置文件||Nutch与Hbase结合使用时常见问题
http://www.aboutyun.com/thread-10050-1-1.html

Nutch-2.2.1系列之四Nutch抓取数据在HBase中的存储
http://www.aboutyun.com/thread-10051-1-1.html


Nutch-2.2.1学习之五以伪分布模式运行Nutch
http://www.aboutyun.com/thread-10078-1-1.html

Nutch-2.2.1系列之六Nutch与Solr的集成
http://www.aboutyun.com/thread-10079-1-1.html

Nutch-2.2.1系列之七过滤抓取数据
http://www.aboutyun.com/thread-10080-1-1.html

Nutch-2.2.1系列之八Nutch过滤URL实践
http://www.aboutyun.com/thread-10081-1-1.html


























没找到任何评论,期待你打破沉寂

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条