wqkenqing 发表于 2017-8-22 10:31:56

nutch+mysql fetch完成后,parse文件至数据库,连接失败,可能还手动parse至数据库

如题,我用nutch抓取网页,用mysql作为持久层,在我的一个任务fetch 阶段执行完成后,因数据库连接问题导致parse数据至数据库失败,我想问能不能接着之前fetch完后的动作,手动提交至之后的动作。

wqkenqing 发表于 2017-8-22 10:34:40

各位大佬帮帮忙啊,入坑Nutch 有一阵了,感觉能国内的资料好少,很多遇到的问题,在网上都没有找到比较明确的解决方案,烦请踩坑老手,分享一下,不胜感激。

qcbb001 发表于 2017-8-22 11:04:12

wqkenqing 发表于 2017-8-22 10:34
各位大佬帮帮忙啊,入坑Nutch 有一阵了,感觉能国内的资料好少,很多遇到的问题,在网上都没有找到比较明确 ...

没有不能实现的,但是困难度太大了。
建议还是解决数据库连接问题。
解决办法,里面也提供了。
首先需要确认,数据库连接是否有问题,数据是否可以入库,如果只是有的时候不能入库。看看是不是网络等原因造成的。
如果一直不能入库,就看下数据库驱动及连接是否正确等。

wqkenqing 发表于 2017-8-22 11:23:58

qcbb001 发表于 2017-8-22 11:04
没有不能实现的,但是困难度太大了。
建议还是解决数据库连接问题。
解决办法,里面也提供了。


数据库连接问题我知道是什么原因造成的,也已经处理了。你应该没理解到我的意思,我crawl 执行这个任务,正常不是有好几个阶段么,最耗时的就在fetch,然后现在我的fetch job完成了,但在Parse时因为与mysql连接失败导致任务中断。我想问的是,能不能继续之前任务中断的地方,继续parse数据至数据库。不然从头再执行一次crawl ,又得耗很长时间。

qcbb001 发表于 2017-8-22 12:59:39

本帖最后由 qcbb001 于 2017-8-22 13:00 编辑

wqkenqing 发表于 2017-8-22 11:23
数据库连接问题我知道是什么原因造成的,也已经处理了。你应该没理解到我的意思,我crawl 执行这个任务, ...
能解决就好。
这个要看是自己写的抓取,还是用的别人的。自己写的可以改代码。别人的就看程序是否完善了。

wqkenqing 发表于 2017-8-22 14:23:19

qcbb001 发表于 2017-8-22 12:59
能解决就好。
这个要看是自己写的抓取,还是用的别人的。自己写的可以改代码。别人的就看程序是否完善了 ...

。。。。,如题,我用的nutch。提问也是在nutch区提的。默认使用的就是nutch使用的官网源码,自己编译的。具体版本是Nutch2.2.1.持久化用的mysql.
页: [1]
查看完整版本: nutch+mysql fetch完成后,parse文件至数据库,连接失败,可能还手动parse至数据库