搜索
搜 索
本版
文章
帖子
用户
图文精华
hadoop-2.6.0+zookeeper-3.4.6+hbase-1.0.0+hive-1.1.0完全分布 ...
首页
Portal
专题
BBS
面试
更多
登录
注册
用户组:游客
主题
帖子
云币
我的帖子
我的收藏
我的好友
我的勋章
设置
退出
导读
淘贴
博客
群组
社区VIP
APP下载
今日排行
本周排行
本周热帖
本月排行
本月热帖
会员排行
About云-梭伦科技
»
专题
›
交流区
›
技术交流
›
HDFS
›
Nutch1.4无法继续执行爬取任务
0
0
0
分享
Nutch1.4无法继续执行爬取任务
RnD_Alex
发表于 2013-10-25 10:42:52
[显示全部楼层]
阅读模式
关闭右栏
0
4491
[root@m141 deploy]# bin/nutch crawl hdfs://192.168.19.141:9000/user/root/urls -dir crawl -depth 200 -threads 20 -topN 100
Warning: $HADOOP_HOME is deprecated.
12/04/11 19:29:32 WARN crawl.Crawl: solrUrl is not set, indexing will be skipped...
12/04/11 19:29:32 INFO crawl.Crawl: crawl started in: crawl
12/04/11 19:29:32 INFO crawl.Crawl: rootUrlDir = hdfs://192.168.19.141:9000/user/root/urls
12/04/11 19:29:32 INFO crawl.Crawl: threads = 20
12/04/11 19:29:32 INFO crawl.Crawl: depth = 200
12/04/11 19:29:32 INFO crawl.Crawl: solrUrl=null
12/04/11 19:29:32 INFO crawl.Crawl: topN = 100
12/04/11 19:29:32 INFO crawl.Injector: Injector: starting at 2012-04-11 19:29:32
12/04/11 19:29:32 INFO crawl.Injector: Injector: crawlDb: crawl/crawldb
12/04/11 19:29:32 INFO crawl.Injector: Injector: urlDir: hdfs://192.168.19.141:9000/user/root/urls
12/04/11 19:29:32 INFO crawl.Injector: Injector: Converting injected urls to crawl db entries.
执行到根据注入的列表生成待下载的地址库时,无法继续爬取信息,也未生成文件夹crawl
回复
使用道具
举报
提升卡
置顶卡
沉默卡
喧嚣卡
变色卡
千斤顶
显身卡
没找到任何评论,期待你打破沉寂
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
本版积分规则
发表回复
回帖后跳转到最后一页
发表新帖
RnD_Alex
新手上路
关注
49
主题
116
帖子
3
粉丝
TA的主题
移动应用调试工具Weinre介绍
2013-12-17
基于Amazon EC2反向代理Google App Engine
2013-12-15
hadoop dfsadmin -refreshNodes 命令详解
2013-10-25
每台工作机dfs.data.dir大小一致
2013-10-25
为啥 copyFromLocal 在shell脚本里不好使?
2013-10-25
24小时热文
像高手一样发言:七种常见工作场景的说话之
幕后产品:打造突破式产品思维
副业警钟,新型法律碰瓷发财方式:批量诉讼
Spark机器学习
Spark机器学习算法、源码及实战详解
关闭
推荐
/2
中文版ChatGPT
1.无需魔法 2.提高编程效率 3.提高文档能力
查看 »
新手帮助
新手帮助:注册遇到问题,领取资源,加入铁粉群,不会使用搜索,如何获取积分等
查看 »
意见
反馈