nutch相关视频前十讲
本帖最后由 hyj 于 2014-9-4 16:47 编辑第一讲土豆在线视频地址(52分钟)
超清原版下载地址压缩高清下载地址1、 通过nutch,诞生了hadoop、tika、gora。
2、 nutch通过ivy来进行依赖管理(1.2之后)。
3、 nutch是使用svn进行源代码管理的。
4、 lucene、nutch、hadoop,在搜索界相当有名。
5、 ant构建之后,生成runtime文件夹,该文件夹下面有deploy和local文件夹,分别代表了nutch的两种运行方式。
6、 nutch和hadoop是通过什么连接起来的?通过nutch脚本。通过hadoop命令把apache-nutch-1.6.job提交给hadoop的JobTracker。
7、 nutch入门重点在于分析nutch脚本文件。
第二讲
土豆在线视频地址 (52分钟)
超清原版下载地址 压缩高清下载地址1、git来作为分布式版本控制工具,github作为server。bitbucket.org提供免费的私有库。
2、nutch的提高在于研读nutch-default.xml文件中的每一个配置项的实际含义(需要结合源代码理解)。
3、定制开发nutch的入门方法是研读build.xml文件。
4、命令:
apt-get install subversionsvn co https://svn.apache.org/repos/asf/nutch/tags/release-1.6/cd release-1.6apt-get install antantcd runtime/localmkdir urlsvi urls/url.txt 并输入http://blog.tianya.cnnohup bin/nutch crawl urls -dir data -depth 3 -threads 100 &vi release-1.6/conf/nutch-site.xml 增加http.agent.name配置cd ../../release-1.6antcd runtime/localnohup bin/nutch crawl urls -dir data -depth 3 -threads 100 &删除报错的文件夹nohup bin/nutch crawl urls -dir data -depth 1 -threads 100 &
第三讲
土豆在线视频地址(53分钟)
超清原版下载地址压缩高清下载地址1、 nutch的存储文件夹data下面各个文件夹和文件里面的内容究竟是什么?
2、 命令:
crawldbbin/nutch | grep readbin/nutchreaddbdata/crawldb-statsbin/nutchreaddbdata/crawldb-dumpdata/crawldb/crawldb_dumpbin/nutchreaddbdata/crawldb-urlhttp://4008209999.tianyaclub.com/bin/nutchreaddbdata/crawldb-topN10 data/crawldb/crawldb_topNbin/nutch readdb data/crawldb-topN 10data/crawldb/crawldb_topN_m 1segmentscrawl_generate:bin/nutch readseg -dump data/segments/20130325042858data/segments/20130325042858_dump -nocontent -nofetch -noparse -noparsedata–noparsetextcrawl_fetch:bin/nutch readseg -dump data/segments/20130325042858 data/segments/20130325042858_dump-nocontent -nogenerate -noparse -noparsedata–noparsetextcontent:bin/nutch readseg -dump data/segments/20130325042858data/segments/20130325042858_dump -nofetch -nogenerate -noparse -noparsedata–noparsetextcrawl_parse:bin/nutch readseg -dump data/segments/20130325042858data/segments/20130325042858_dump -nofetch -nogenerate -nocontent –noparsedata–noparsetextparse_data:bin/nutch readseg -dump data/segments/20130325042858data/segments/20130325042858_dump -nofetch -nogenerate -nocontent -noparse–noparsetextparse_text:bin/nutch readseg -dump data/segments/20130325042858data/segments/20130325042858_dump -nofetch -nogenerate -nocontent -noparse-noparsedata全部:bin/nutch readseg -dump data/segments/20130325042858data/segments/20130325042858_dumpsegmentsbin/nutch readseg -list -dir data/segmentsbin/nutch readseg -list data/segments/20130325043023bin/nutch readseg -get data/segments/20130325042858 http://blog.tianya.cn/linkdbbin/nutch readlinkdb data/linkdb -url http://4008209999.tianyaclub.com/bin/nutch readlinkdb data/linkdb -dump data/linkdb_dump
第四讲
土豆在线视频地址(60分钟)
超清原版下载地址
压缩高清下载地址
1、深入分析nutch的抓取周期
injectgenerate -> fetch -> parse ->updatedb2、3大merge和3大read命令阐释
bin/nutch|grep mergebin/nutch|grep readbin/nutchmergesegsdata/segments_all-dir data/segments3、反转链接
bin/nutchinvertlinksdata/linkdb-dirdata/segments4、解析页面
bin/nutchparsecheckerhttp://apdplat.org
第五讲土豆在线视频地址(66分钟)
超清原版下载地址
压缩高清下载地址
1、域统计
bin/nutchdomainstatsdata2/crawldb/currenthosthostbin/nutchdomainstats data2/crawldb/currentdomain domainbin/nutchdomainstats data2/crawldb/currentsuffix suffixbin/nutchdomainstats data2/crawldb/currenttldtld2、webgraphbin/nutch webgraph -segmentDir data2/segments -webgraphdbdata2/webgraphdb有相同inlinks的URL,只输出topn条bin/nutch nodedumper -inlinks -outputinlinks -topn 1 -webgraphdb data2/webgraphdb有相同outlinks的URL,只输出topn条bin/nutch nodedumper -outlinks-outputoutlinks -topn 1 -webgraphdb data2/webgraphdb有相同scores的URL,只输出topn条(初始分值全为0)bin/nutch nodedumper -scores-output scores -topn 1 -webgraphdbdata2/webgraphdb计算URL分值bin/nutchlinkrank-webgraphdbdata2/webgraphdb再次查看分值bin/nutch nodedumper -scores-output scores –topn 1 -webgraphdbdata2/webgraphdb对结果进行分组,取最大值或是连加和(topn参数不参与)bin/nutch nodedumper -group domain sum -inlinks -outputinlinks_group_sum-webgraphdbdata2/webgraphdb
bin/nutch nodedumper -group domain max -inlinks -outputinlinks_group_max-webgraphdbdata2/webgraphdb
对url进行分组,分组方式可选择为host或是domain,对同一组的url执行topn限制,对执行了topn限制的url集合执行max或是sum操作,max和sum所针对的排序值是3种方式之一inlinks、outlinks以及scores。
第六讲土豆在线视频地址(46分钟)
超清原版下载地址
压缩高清下载地址
1、注入分值
bin/nutchreaddbdata2/crawldb-dumpcrawldb_dump
catcrawldb_dump/*|grepScore|sort|uniq
bin/nutchscoreupdater -crawldb data2/crawldb -webgraphdb data2/webgraphdb2、轻量级抓取bin/nutchfreegenurlsdata3/segments
第七讲
土豆在线视频地址(58分钟)
超清原版下载地址
压缩高清下载地址 1、indexcheckerbin/nutchindexcheckerhttp://www.163.com2、安装配置SOLRwget http://mirror.bjtu.edu.cn/apache/lucene/solr/3.6.2/apache-solr-3.6.2.tgztar-xzvfapache-solr-3.6.2.tgzcdapache-solr-3.6.2/example复制nutch的conf目录中的schema.xml文件到solr/conf目录修改solr/conf/solrconfig.xml,将里面所有的<strname="df">text</str>都替换为<strname="df">content</str>3、运行SOLR并提交索引启动SOLR服务器
java -jar start.jar &Web界面 http://host2:8983提交索引bin/nutch solrindex http://host2:8983/solr data/crawldb-linkdb data/linkdb -dir data/segments4、使用LUKE工具查看索引5、给SOLR3.6.2配置分词器mmseg4jwget http://mmseg4j.googlecode.com/files/mmseg4j-1.8.5.zipunzip mmseg4j-1.8.5.zip -dmmseg4j-1.8.5将mmseg4j-1.8.5/mmseg4j-all-1.8.5-with-dic.jar复制到solr下的lib目录
将schema.xml文件中所有的
<tokenizerclass="solr.WhitespaceTokenizerFactory"/>
和
<tokenizer class="solr.StandardTokenizerFactory"/>
替换为
<tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory"mode="complex"/>
第八讲
土豆在线视频地址(38分钟)
超清原版下载地址
压缩高清下载地址 1、指定LUKE工具的分词器 访问https://code.google.com/p/mmseg4j/downloads/list 下载mmseg4j-1.9.1.v20130120-SNAPSHOT.zip 将压缩包里面的dist文件夹里面的jar解压,将解压出来com和data文件夹拖到lukeall-4.0.0-ALPHA.jar里面 启动luke,在Search选项卡的Analysis里面选择com.chenlb.mmseg4j.analysis.ComplexAnalyzer 2、安装配置SOLR4.2 wget http://labs.mop.com/apache-mirror/lucene/solr/4.2.0/solr-4.2.0.tgz tar-xzvfsolr-4.2.0.tgz cdsolr-4.2.0/example 复制nutch的conf目录中的schema-solr4.xml文件到solr/collection1/conf目录,改名为schema.xml,覆盖原来文件 修改solr/collection1/conf/schema.xml,在<fields>下增加:<field name="_version_" type="long" indexed="true" stored="true"/> 3、给SOLR4.2配置分词器mmseg4j wget https://mmseg4j.googlecode.com/files/mmseg4j-1.9.1.v20130120-SNAPSHOT.zip unzip mmseg4j-1.9.1.v20130120-SNAPSHOT.zip -dmmseg4j-1.9.1 将mmseg4j-1.9.1/dist/*.jar复制到solr下的lib目录
将schema.xml文件中的
<tokenizer class="solr.WhitespaceTokenizerFactory"/>
和
<tokenizer class="solr.StandardTokenizerFactory"/>
替换为
<tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="complex"/> 4、运行SOLR并提交索引 启动SOLR服务器
java -jar start.jar & Web界面 http://host2:8983 提交索引 bin/nutch solrindex http://host2:8983/solr data/crawldb -linkdb data/linkdb -dir data/segments
第九讲
土豆在线视频地址(44分钟)
超清原版下载地址
压缩高清下载地址 1、安装win上的nutch运行环境Cygwin
cygwin路径不要有空格把安装好的JDK拷贝到用户主目录把nutch的文件拷贝到用户主目录下载解压ant,加入path2、运行nutch
Exception in thread "main" java.io.IOException:Failed to set permissions of path:\tmp\hadoop-ysc\mapred\staging\ysc-2036315919\.staging to 0700https://issues.apache.org/jira/browse/HADOOP-7682http://mirror.bit.edu.cn/apache/hadoop/common/hadoop-1.1.2/hadoop-1.1.2.tar.gz修改hadoop-1.1.2\src\core\org\apache\hadoop\fs\FileUtil.java,搜索 Failed to set permissions of path,找到689行,把thrownew IOException改为LOG.warn修改hadoop-1.1.2\build.xml,搜索autoreconf,移除匹配的6个executable="autoreconf"的exec配置执行ant用新生成的hadoop-core-1.1.3-SNAPSHOT.jar替换nutch的hadoop-core-1.0.3.jar
第十讲
土豆在线视频地址(58分钟)
超清原版下载地址
压缩高清下载地址1、HADOOP单机本地模式wget http://mirror.bit.edu.cn/apache/hadoop/common/hadoop-1.1.2/hadoop-1.1.2.tar.gztar -xzvf hadoop-1.1.2.tar.gzexportPATH=/home/ysc/hadoop-1.1.2/bin:$PATH切换到nutch的deploy目录运行命令2、HADOOP单机伪分布式模式新建用户和组addgroup hadoopadduser --ingroup hadoop hadoop注销root以hadoop用户登录配置SSHssh-keygen -t rsa(密码为空,路径默认)cp .ssh/id_rsa.pub .ssh/authorized_keys准备HADOOP运行环境wget http://mirror.bit.edu.cn/apache/hadoop/common/hadoop-1.1.2/hadoop-1.1.2.tar.gztar -xzvf hadoop-1.1.2.tar.gz在/home/hadoop/.bashrc 中追加:exportPATH=/home/hadoop/hadoop-1.1.2/bin:$PATH重新登录就生效ssh localhostwhich hadoop配置HADOOP运行参数vi conf/core-site.xml
<property><name>fs.default.name</name><value>hdfs://localhost:9000</value></property><property><name>hadoop.tmp.dir</name><value>/home/hadoop/tmp</value></property>
vi conf/hdfs-site.xml
<property> <name>dfs.name.dir</name> <value>/home/hadoop/dfs/filesystem/name</value></property><property> <name>dfs.data.dir</name> <value>/home/hadoop/dfs/filesystem/data</value></property><property><name>dfs.replication</name> <value>1</value></property>
vi conf/mapred-site.xml
<property> <name>mapred.job.tracker</name> <value>localhost:9001</value></property><property> <name>mapred.tasktracker.map.tasks.maximum</name> <value>4</value></property><property> <name>mapred.tasktracker.reduce.tasks.maximum</name> <value>4</value></property><property> <name>mapred.system.dir</name> <value>/home/hadoop/mapreduce/system</value></property><property> <name>mapred.local.dir</name> <value>/home/hadoop/mapreduce/local</value></property>格式化名称节点并启动集群hadoop namenode -format启动集群并查看WEB管理界面start-all.sh访问http://localhost:50030可以查看 JobTracker 的运行状态访问http://localhost:50060可以查看 TaskTracker 的运行状态访问http://localhost:50070可以查看 NameNode 以及整个分布式文件系统的状态,浏览分布式文件系统中的文件以及 log 等停止集群stop-all.sh停止集群3、执行Nutch的crawl命令(如失效,可以查看您此帖http://www.aboutyun.com/thread-5449-1-1.html)
下一篇
nutch相关视频后十讲
{:soso_e113:} 下载成功,谢谢楼主.
页:
[1]