本帖最后由 hyj 于 2014-9-1 10:45 编辑
相信你已经找了不少资料,下面内容可以参考:安装配置主要是细心、明确他们的含义。这样遇到的问题就少了
介绍Nutch 网络爬虫
Hbase 分布式存储系统
Solr搜索服务器
版本说明由于Nutch\Hbase\Solr他们都各自做在自己的版本修改,所以配置他们三者有不同的方法.这里也是参考网络文档做了他们最新版本的配置 Nutch版本(2.2.1) apache-nutch-2.2.1-src.tar.gz;由于改版本的Nutch默认的Hbase版本是0.90.4 所以这里就使用的hbase-0.90.4.tar.gz ;同时Nutch默认的Solr版本是3.4.0版本,但由于Solr4与三的版本变化比较大,所以这里我使用的是当前最新的4版本solr-4.4.0.tgz。
apache-nutch-2.2.1-src.tar.gz
hbase-0.90.4.tar.gz
solr-4.4.0.tgz
下载安装JDK安装Hbase
解压hbase-0.90.4.tar.gz
先拷贝文件到/usr/local/目录下 $ tar xfz hbase-0.90.4.tar.gz$ chmod -R 777 hbase-0.90.4
编辑 conf/hbase-site.xml在中添加如下内容。其实这里也可以不做修改,如果不做修改,就会把数据存放到tmp临时目录中,重启就没有数据。如果做简单的测试就不用麻烦去配置文件。
- <property>
- <name>hbase.rootdir</name>
- <value>file:////usr/local/hbase-0.90.4/hbase</value>
- </property>
- <property>
- <name>hbase.zookeeper.property.dataDir</name>
- <value>/usr/local/hbase-0.90.4/zookeeper</value>
- </property>
复制代码
启动Hbase
$./cp hbase-0.90.4$ bin/start-hbase.sh查看Logs日志,如果不报错就证明启动成功。
安装Nutch
解压apache-nutch-2.2.1-src.tar.gz
- $ tar -zxvf apache-nutch-2.2.1-src.tar.gz
- $ mv apache-nutch-2.2.1-src nutch-2
- $ chmod -R 777 nutch-2
复制代码
修改conf/ nutch-site.xml
- <property>
- <name>storage.data.store.class</name> <value>org.apache.gora.hbase.store.HBaseStore</value>
- <description>Default class for storing data</description>
- </property>
复制代码
修改ivy/ivy.xml取消注释 - <dependency org="org.apache.gora" name="gora-hbase" rev="0.3" conf="*->default" />
复制代码
配置conf/gora.properties添加
- gora.datastore.default=org.apache.gora.hbase.store.HBaseStore
复制代码
安装ANT
安装NutchNutch的安装需要基于网络,由于原文件中还有很多jar没有包含,所以修要运行ant来自动下载
复制代码
这里需要等待一段时间,这里会在nutch-2下生成runtime目录
(180M左右)
,其实就是最后的二进制目录。
在配置nutch-2/runtime/local/conf/nutch-site.xml
在添加如下配置信息
在添加如下配置信息
- <property>
- <name>http.agent.name</name>
- <value>Your Nutch Spider</value>
- </property>
-
- <property>
- <name>http.accept.language</name>
- <value>ja-jp, en-us,en-gb,en;q=0.7,*;q=0.3</value>
- <description>Value of the “Accept-Language” request header field.
- This allows selecting non-English language as default one to retrieve.
- It is a useful setting for search engines build for certain national group.
- </description>
- </property>
-
- <property>
- <name>parser.character.encoding.default</name>
- <value>utf-8</value>
- <description>The character encoding to fall back to when no other information
- is available</description>
- </property>
复制代码
配置抓取网址- $ cd runtime/local
- $ mkdir -p urls
- $ cd urls
- $ vi seed.txt
复制代码
在seed.txt添加 http://nutch.apache.org/
运行Nutch
- $ /bin/nutch inject urls
- $ /bin/nutch readdb
复制代码
如果不报错证明已成功安装
在Hbase测试
在运行 复制代码
就可以查看到webpage表,证明已经成功创建。
安装Solr这里使用的是Solr4
解压solr-4.4.0.tar.gz拷贝到/usr/local目录
- $ tar -zxvf solr-4.4.0.tar.gz
- $ mv solr-4.4.0 solr-4
- $ chmod -R 777 solr-4
复制代码
替换schema.xml文件把下载的schema.xml文件替换掉 /usr/local/solr-4/example/solr/collection1/conf/schema.xml(这里正时solr4与nutch格式)
运行Solr
java -jar start.jar
运行Nutch提交在nutch-2/runtime/local/bin/下面执行nutch的全部抓取过程:
inject>generate>fetch>parse>updatedb之后,可以执行solrindex的操作,用法如下: - bin/nutch inject urls
- bin/nutch generate -topN 3
复制代码
- bin/nutch fetch -all
- bin/nutch parse -all
- bin/nutch updatedb
复制代码
- bin/nutch solrindex http://127.0.0.1:8983/solr/ -reindex
复制代码
|