问题导读
1.什么是Spiderman?
2.webmagic有什么功能?
3.分布式爬虫包含哪些技术架构?
SpidermanSpiderman 是一个Java开源Web数据抽取工具。它能够收集指定的Web页面并从这些页面中提取有用的数据。 Spiderman主要是运用了像XPath、正则、表达式引擎等这些技术来实现数据抽取。 项目结构: 依赖关系如下: webmagicwebmagic采用完全模块化的设计,功能覆盖整个爬虫的生命周期(链接提取、页面下载、内容抽取、持久化),支持多线程抓取,分布式抓取,并支持自动重试、自定义UA/cookie等功能。 工程结构: 工程间的关系: 众推用整体正在进行中,目前集中在分布式爬虫阶段。 目前设计阶段的结构为: 基本思想为: WEB:界面及功能部分。 SAMPLES:示例部分。 CORE:需要调用的核心包。 RULES:规则处理部分。 PARSERS:解析部分。 PLUGIN:插件部分。 CDOOP:分布式处理部分。 ADAPTER:代理适配部分。 STORE:存储层。 目前项目的地址在: https://github.com/zongtui/zongtui-webcrawler
|