用户组:游客
使用道具 举报
langke93 发表于 2015-4-13 19:30 这个需要懂正则表达式,按照下面两步,然后向过滤,加正则就可以了。 添加种子URL
hnyyzj0724 发表于 2015-4-14 11:41 你好 现在我的问题主要是能根据我所配置的正则获取网站的数据,但是nutch是将整个网页保存到数据表web ...
langke93 发表于 2015-4-14 22:36 这个只能自己写程序过滤了。 比如当你抓下来之后,读取里面的内容,然后根据网页过滤里面的html标签
本版积分规则 发表回复 回帖后跳转到最后一页
积极上进,爱好学习
经常参与各类话题的讨论,发帖内容较有主见
经常帮助其他会员答疑
新手上路
1
主题
5
帖子
2
粉丝
查看 »