是的~~抓的一个个网页 包含html标签。 我需要,将 视屏或者文档之类的抓取下来,存到HBASE中,或者本地, 现在就是不清楚这个怎么弄,需要看什么,不知道nutch能完成吗。 |
dead_lyn 发表于 2015-9-12 11:08 爬取得整个网页的内容,包括html标签吗?若是包括html标签就好处理了,可以转换成xml进行解析。若是只是一些表面文字,爬取下来也没啥意义。 |
SOS~~~求问LZ,,, 在使用nutch后,爬取的都是一个一个的网页内容。。。 想问:后续的处理一般是怎么样的。 比如,想爬取一个网站的视频资源,如何下载下来呢。。。 谢谢啦!! |
好高级啊,完全晕菜啊 |
很高大上呀,保存了慢慢学习 |
好帖子,保存一下。。。 |