分布式爬虫技术架构

问题导读

1.什么是Spiderman？
2.webmagic有什么功能？
3.分布式爬虫包含哪些技术架构？

Spiderman

Spiderman 是一个Java开源Web数据抽取工具。它能够收集指定的Web页面并从这些页面中提取有用的数据。 Spiderman主要是运用了像XPath、正则、表达式引擎等这些技术来实现数据抽取。

项目结构：

依赖关系如下：

webmagic

webmagic采用完全模块化的设计，功能覆盖整个爬虫的生命周期(链接提取、页面下载、内容抽取、持久化)，支持多线程抓取，分布式抓取，并支持自动重试、自定义UA/cookie等功能。

工程结构：

工程间的关系：

众推

用整体正在进行中，目前集中在分布式爬虫阶段。

目前设计阶段的结构为：

基本思想为：

WEB：界面及功能部分。

SAMPLES：示例部分。

CORE：需要调用的核心包。

RULES：规则处理部分。

PARSERS：解析部分。

PLUGIN：插件部分。

CDOOP：分布式处理部分。

ADAPTER：代理适配部分。

STORE：存储层。

目前项目的地址在：

https://github.com/zongtui/zongtui-webcrawler

yongjian3311 · 发表于 2015-4-14 18:30:50

路过看看。。。

LeucotheaShi · 发表于 2015-4-15 10:14:19

赞~楼主辛苦了，之后可以讲得更深入一些

hnyyzj0724 · 发表于 2015-4-16 09:03:42

目前正在学...请问楼主，怎么能在一PageProcessor中获取另一个PageProcessor的中过滤出的数据。。。谢谢

tang · 发表于 2015-6-19 18:55:16

图文精华