图文精华

hadoop-2.6.0+zookeeper-3.4.6+hbase-1.0.0+hive-1.1.0完全分布 ...

About云-梭伦科技»专题 › 交流区 › 大数据扩展 › 数据分析 › Nutch2.2.1+Mysql 怎么定制抓取数据规则，而不是将整个 ...

0
4
0

分享

Nutch2.2.1+Mysql 怎么定制抓取数据规则，而不是将整个页面趴下了，保存到数据库

hnyyzj0724 发表于 2015-4-13 18:31:02 [显示全部楼层] 回帖奖励

回帖奖励

阅读模式关闭右栏 4 28961

如标题所述

回复

使用道具举报

自定义广告语

已有(4)人评论

电梯直达

跳转到指定楼层

正序浏览

langke93 发表于 2015-4-13 19:30:04

这个需要懂正则表达式，按照下面两步，然后向过滤，加正则就可以了。

添加种子URL
mkdir ~/urls
vim ～/urls/seed.txt
http://movie.douban.com/subject/5323968/
设置URL过滤规则
如果只想抓取某种类型的URL，可以在 conf/regex-urlfilter.txt设置正则表达式，于是，只有匹配这些正则表达式的URL才会被抓取。

例如，我只想抓取豆瓣电影的数据，可以这样设置：

#注释掉这一行
# skip URLs containing certain characters as probable queries, etc.
#-[?*!@=]
# accept anything else
#注释掉这行
#+.
+^http:\/\/movie\.douban\.com\/subject\/[0-9]+\/(\?.+)?$

回复

使用道具举报

hnyyzj0724 发表于 2015-4-14 11:41:55

langke93 发表于 2015-4-13 19:30
这个需要懂正则表达式，按照下面两步，然后向过滤，加正则就可以了。

添加种子URL

你好
现在我的问题主要是能根据我所配置的正则获取网站的数据，但是nutch是将整个网页保存到数据表webpage中的content，而我想要的只是正文数据而非整个网页代码
不知道我描述得清楚没

回复

使用道具举报

langke93 发表于 2015-4-14 22:36:30

hnyyzj0724 发表于 2015-4-14 11:41
你好
现在我的问题主要是能根据我所配置的正则获取网站的数据，但是nutch是将整个网页保存到数据表web ...

这个只能自己写程序过滤了。
比如当你抓下来之后，读取里面的内容，然后根据网页过滤里面的html标签

回复

使用道具举报

hnyyzj0724 发表于 2015-4-15 14:07:59

langke93 发表于 2015-4-14 22:36
这个只能自己写程序过滤了。
比如当你抓下来之后，读取里面的内容，然后根据网页过滤里面的html标签

嗯，好点
谢谢哈~~~~

回复

使用道具举报

发表新帖

hnyyzj0724

新手上路

关注

1

主题
5

帖子
2

粉丝

TA的主题

Nutch2.2.1+Mysql 怎么定制抓取数据规则，而不是将整个页面趴下了，保存到数据库

2015-4-13

24小时热文

推荐 /2

关于我们· 联系我们· 加入我们· 小黑屋· 合作伙伴

Copyright © 2001-2024 About云-梭伦科技 Powered by Discuz! X3.4 Licensed Discuz Team.

简书 / 京ICP备2020039040号简书网举报电话：021-34700000

意见
反馈