nutch相关视频前十讲-大数据资源-About云-梭伦科技

hyj 发表于 2014-4-9 05:18:13

nutch相关视频前十讲

本帖最后由 hyj 于 2014-9-4 16:47 编辑

第一讲土豆在线视频地址（52分钟）
超清原版下载地址压缩高清下载地址1、通过nutch，诞生了hadoop、tika、gora。
2、 nutch通过ivy来进行依赖管理（1.2之后）。
3、 nutch是使用svn进行源代码管理的。
4、 lucene、nutch、hadoop，在搜索界相当有名。
5、 ant构建之后，生成runtime文件夹，该文件夹下面有deploy和local文件夹，分别代表了nutch的两种运行方式。
6、 nutch和hadoop是通过什么连接起来的？通过nutch脚本。通过hadoop命令把apache-nutch-1.6.job提交给hadoop的JobTracker。
7、 nutch入门重点在于分析nutch脚本文件。

第二讲
土豆在线视频地址（52分钟）
超清原版下载地址压缩高清下载地址1、git来作为分布式版本控制工具，github作为server。bitbucket.org提供免费的私有库。
2、nutch的提高在于研读nutch-default.xml文件中的每一个配置项的实际含义（需要结合源代码理解）。
3、定制开发nutch的入门方法是研读build.xml文件。
4、命令：
apt-get install subversionsvn co https://svn.apache.org/repos/asf/nutch/tags/release-1.6/cd release-1.6apt-get install antantcd runtime/localmkdir urlsvi urls/url.txt 并输入http://blog.tianya.cnnohup bin/nutch crawl urls -dir data -depth 3 -threads 100 &vi release-1.6/conf/nutch-site.xml 增加http.agent.name配置cd ../../release-1.6antcd runtime/localnohup bin/nutch crawl urls -dir data -depth 3 -threads 100 &删除报错的文件夹nohup bin/nutch crawl urls -dir data -depth 1 -threads 100 &

第三讲
土豆在线视频地址（53分钟）
超清原版下载地址压缩高清下载地址1、 nutch的存储文件夹data下面各个文件夹和文件里面的内容究竟是什么？
2、命令：
crawldbbin/nutch | grep readbin/nutchreaddbdata/crawldb-statsbin/nutchreaddbdata/crawldb-dumpdata/crawldb/crawldb_dumpbin/nutchreaddbdata/crawldb-urlhttp://4008209999.tianyaclub.com/bin/nutchreaddbdata/crawldb-topN10 data/crawldb/crawldb_topNbin/nutch readdb data/crawldb-topN 10data/crawldb/crawldb_topN_m 1segmentscrawl_generate：bin/nutch readseg -dump data/segments/20130325042858data/segments/20130325042858_dump -nocontent -nofetch -noparse -noparsedata–noparsetextcrawl_fetch：bin/nutch readseg -dump data/segments/20130325042858 data/segments/20130325042858_dump-nocontent -nogenerate -noparse -noparsedata–noparsetextcontent：bin/nutch readseg -dump data/segments/20130325042858data/segments/20130325042858_dump -nofetch -nogenerate -noparse -noparsedata–noparsetextcrawl_parse：bin/nutch readseg -dump data/segments/20130325042858data/segments/20130325042858_dump -nofetch -nogenerate -nocontent –noparsedata–noparsetextparse_data：bin/nutch readseg -dump data/segments/20130325042858data/segments/20130325042858_dump -nofetch -nogenerate -nocontent -noparse–noparsetextparse_text：bin/nutch readseg -dump data/segments/20130325042858data/segments/20130325042858_dump -nofetch -nogenerate -nocontent -noparse-noparsedata全部：bin/nutch readseg -dump data/segments/20130325042858data/segments/20130325042858_dumpsegmentsbin/nutch readseg -list -dir data/segmentsbin/nutch readseg -list data/segments/20130325043023bin/nutch readseg -get data/segments/20130325042858 http://blog.tianya.cn/linkdbbin/nutch readlinkdb data/linkdb -url http://4008209999.tianyaclub.com/bin/nutch readlinkdb data/linkdb -dump data/linkdb_dump

第四讲
土豆在线视频地址（60分钟）
超清原版下载地址
压缩高清下载地址
1、深入分析nutch的抓取周期
injectgenerate -> fetch -> parse ->updatedb2、3大merge和3大read命令阐释
bin/nutch|grep mergebin/nutch|grep readbin/nutchmergesegsdata/segments_all-dir data/segments3、反转链接
bin/nutchinvertlinksdata/linkdb-dirdata/segments4、解析页面
bin/nutchparsecheckerhttp://apdplat.org
第五讲土豆在线视频地址（66分钟）
超清原版下载地址
压缩高清下载地址
1、域统计
bin/nutchdomainstatsdata2/crawldb/currenthosthostbin/nutchdomainstats data2/crawldb/currentdomain domainbin/nutchdomainstats data2/crawldb/currentsuffix suffixbin/nutchdomainstats data2/crawldb/currenttldtld2、webgraphbin/nutch webgraph -segmentDir data2/segments -webgraphdbdata2/webgraphdb有相同inlinks的URL，只输出topn条bin/nutch nodedumper -inlinks -outputinlinks -topn 1 -webgraphdb data2/webgraphdb有相同outlinks的URL，只输出topn条bin/nutch nodedumper -outlinks-outputoutlinks -topn 1 -webgraphdb data2/webgraphdb有相同scores的URL，只输出topn条（初始分值全为0）bin/nutch nodedumper -scores-output scores -topn 1 -webgraphdbdata2/webgraphdb计算URL分值bin/nutchlinkrank-webgraphdbdata2/webgraphdb再次查看分值bin/nutch nodedumper -scores-output scores –topn 1 -webgraphdbdata2/webgraphdb对结果进行分组，取最大值或是连加和（topn参数不参与）bin/nutch nodedumper -group domain sum -inlinks -outputinlinks_group_sum-webgraphdbdata2/webgraphdb

bin/nutch nodedumper -group domain max -inlinks -outputinlinks_group_max-webgraphdbdata2/webgraphdb
对url进行分组，分组方式可选择为host或是domain，对同一组的url执行topn限制，对执行了topn限制的url集合执行max或是sum操作，max和sum所针对的排序值是3种方式之一inlinks、outlinks以及scores。
第六讲土豆在线视频地址（46分钟）
超清原版下载地址
压缩高清下载地址
1、注入分值
bin/nutchreaddbdata2/crawldb-dumpcrawldb_dump
catcrawldb_dump/*|grepScore|sort|uniq
bin/nutchscoreupdater -crawldb data2/crawldb -webgraphdb data2/webgraphdb2、轻量级抓取bin/nutchfreegenurlsdata3/segments

第七讲
土豆在线视频地址（58分钟）
超清原版下载地址
压缩高清下载地址 1、indexcheckerbin/nutchindexcheckerhttp://www.163.com2、安装配置SOLRwget http://mirror.bjtu.edu.cn/apache/lucene/solr/3.6.2/apache-solr-3.6.2.tgztar-xzvfapache-solr-3.6.2.tgzcdapache-solr-3.6.2/example复制nutch的conf目录中的schema.xml文件到solr/conf目录修改solr/conf/solrconfig.xml,将里面所有的<strname="df">text</str>都替换为<strname="df">content</str>3、运行SOLR并提交索引启动SOLR服务器
java -jar start.jar &Web界面 http://host2:8983提交索引bin/nutch solrindex http://host2:8983/solr data/crawldb-linkdb data/linkdb -dir data/segments4、使用LUKE工具查看索引5、给SOLR3.6.2配置分词器mmseg4jwget http://mmseg4j.googlecode.com/files/mmseg4j-1.8.5.zipunzip mmseg4j-1.8.5.zip -dmmseg4j-1.8.5将mmseg4j-1.8.5/mmseg4j-all-1.8.5-with-dic.jar复制到solr下的lib目录
将schema.xml文件中所有的
<tokenizerclass="solr.WhitespaceTokenizerFactory"/>
和
<tokenizer class="solr.StandardTokenizerFactory"/>
替换为
<tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory"mode="complex"/>

第八讲
土豆在线视频地址（38分钟）
超清原版下载地址
压缩高清下载地址 1、指定LUKE工具的分词器访问https://code.google.com/p/mmseg4j/downloads/list 下载mmseg4j-1.9.1.v20130120-SNAPSHOT.zip 将压缩包里面的dist文件夹里面的jar解压，将解压出来com和data文件夹拖到lukeall-4.0.0-ALPHA.jar里面启动luke，在Search选项卡的Analysis里面选择com.chenlb.mmseg4j.analysis.ComplexAnalyzer 2、安装配置SOLR4.2 wget http://labs.mop.com/apache-mirror/lucene/solr/4.2.0/solr-4.2.0.tgz tar-xzvfsolr-4.2.0.tgz cdsolr-4.2.0/example 复制nutch的conf目录中的schema-solr4.xml文件到solr/collection1/conf目录，改名为schema.xml，覆盖原来文件修改solr/collection1/conf/schema.xml，在<fields>下增加：<field name="_version_" type="long" indexed="true" stored="true"/> 3、给SOLR4.2配置分词器mmseg4j wget https://mmseg4j.googlecode.com/files/mmseg4j-1.9.1.v20130120-SNAPSHOT.zip unzip mmseg4j-1.9.1.v20130120-SNAPSHOT.zip -dmmseg4j-1.9.1 将mmseg4j-1.9.1/dist/*.jar复制到solr下的lib目录
将schema.xml文件中的
<tokenizer class="solr.WhitespaceTokenizerFactory"/>
和
<tokenizer class="solr.StandardTokenizerFactory"/>
替换为
<tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="complex"/> 4、运行SOLR并提交索引启动SOLR服务器
java -jar start.jar & Web界面 http://host2:8983 提交索引 bin/nutch solrindex http://host2:8983/solr data/crawldb -linkdb data/linkdb -dir data/segments
第九讲
土豆在线视频地址（44分钟）
超清原版下载地址
压缩高清下载地址 1、安装win上的nutch运行环境Cygwin
cygwin路径不要有空格把安装好的JDK拷贝到用户主目录把nutch的文件拷贝到用户主目录下载解压ant，加入path2、运行nutch
Exception in thread "main" java.io.IOException:Failed to set permissions of path:\tmp\hadoop-ysc\mapred\staging\ysc-2036315919\.staging to 0700https://issues.apache.org/jira/browse/HADOOP-7682http://mirror.bit.edu.cn/apache/hadoop/common/hadoop-1.1.2/hadoop-1.1.2.tar.gz修改hadoop-1.1.2\src\core\org\apache\hadoop\fs\FileUtil.java，搜索 Failed to set permissions of path，找到689行，把thrownew IOException改为LOG.warn修改hadoop-1.1.2\build.xml，搜索autoreconf，移除匹配的6个executable="autoreconf"的exec配置执行ant用新生成的hadoop-core-1.1.3-SNAPSHOT.jar替换nutch的hadoop-core-1.0.3.jar

第十讲
土豆在线视频地址（58分钟）
超清原版下载地址
压缩高清下载地址1、HADOOP单机本地模式wget http://mirror.bit.edu.cn/apache/hadoop/common/hadoop-1.1.2/hadoop-1.1.2.tar.gztar -xzvf hadoop-1.1.2.tar.gzexportPATH=/home/ysc/hadoop-1.1.2/bin:$PATH切换到nutch的deploy目录运行命令2、HADOOP单机伪分布式模式新建用户和组addgroup hadoopadduser --ingroup hadoop hadoop注销root以hadoop用户登录配置SSHssh-keygen -t rsa（密码为空，路径默认）cp .ssh/id_rsa.pub .ssh/authorized_keys准备HADOOP运行环境wget http://mirror.bit.edu.cn/apache/hadoop/common/hadoop-1.1.2/hadoop-1.1.2.tar.gztar -xzvf hadoop-1.1.2.tar.gz在/home/hadoop/.bashrc 中追加：exportPATH=/home/hadoop/hadoop-1.1.2/bin:$PATH重新登录就生效ssh localhostwhich hadoop配置HADOOP运行参数vi conf/core-site.xml
<property><name>fs.default.name</name><value>hdfs://localhost:9000</value></property><property><name>hadoop.tmp.dir</name><value>/home/hadoop/tmp</value></property>
vi conf/hdfs-site.xml
<property> <name>dfs.name.dir</name> <value>/home/hadoop/dfs/filesystem/name</value></property><property> <name>dfs.data.dir</name> <value>/home/hadoop/dfs/filesystem/data</value></property><property><name>dfs.replication</name> <value>1</value></property>
vi conf/mapred-site.xml
<property> <name>mapred.job.tracker</name> <value>localhost:9001</value></property><property> <name>mapred.tasktracker.map.tasks.maximum</name> <value>4</value></property><property> <name>mapred.tasktracker.reduce.tasks.maximum</name> <value>4</value></property><property> <name>mapred.system.dir</name> <value>/home/hadoop/mapreduce/system</value></property><property> <name>mapred.local.dir</name> <value>/home/hadoop/mapreduce/local</value></property>格式化名称节点并启动集群hadoop namenode -format启动集群并查看WEB管理界面start-all.sh访问http://localhost:50030可以查看 JobTracker 的运行状态访问http://localhost:50060可以查看 TaskTracker 的运行状态访问http://localhost:50070可以查看 NameNode 以及整个分布式文件系统的状态，浏览分布式文件系统中的文件以及 log 等停止集群stop-all.sh停止集群3、执行Nutch的crawl命令(如失效，可以查看您此帖http://www.aboutyun.com/thread-5449-1-1.html)
下一篇
nutch相关视频后十讲

shengzhilei 发表于 2014-9-1 20:56:14

{:soso_e113:}

ansha886 发表于 2016-6-30 20:18:03

下载成功,谢谢楼主.

页: [1]

About云-梭伦科技's Archiver

nutch相关视频前十讲