java爬虫项目(一)

本帖最后由孤独的战神于 2019-6-24 14:08 编辑

最近在工作当中接触了一些关于爬虫项目的内容，自己就做了一下研究，现将自己的研究做了一些梳理，本帖子将从头到尾搭建一个爬虫小项目。

爬虫项目背景：

现在处于这个数据大爆炸的时代，数据就是就是金钱，可以说谁拥有数据谁就拥有话语权——用数据说话，用事实说话。

目前各大软件厂商（例如微信、支付宝、美团等等）拥有庞大的用户群体，而用户的每天会有各种各样的”行为”,这些”行为”成为了这些软件厂商关注的对象。软件厂商通过收集用户的”行为”，然后通过大数据分析，来总结出用户的”行为习惯”，从而进行广告的推广。

爬虫的目的也是一样的，通过爬取数据达到数据收集的目的-----》数据分析-----》业务推广

本项目总体需求：

本项目就基于论坛帖子来进行数据抓取。

1. 多维度分析

访问量、评论数、踩、赞

2. 项目可视化

在个人练习中总结了爬虫项目可能遇到的一下几点问题和解决办法：

1）频繁的抓取网站数据导致IP被封

解决办法：

部署多个应用分别抓取，降低单节点频繁访问;

如果有实力可以购买代理IP库，随机获取IP进行数据抓取；

给每个页面设置抓取的时间间隔，降低被封的概率；

2）抓取数据URL访问失败

解决办法：

采用HttpClient默认处理方式，重试3次，如果3次失败则认为是无效的URL；

3）网站采取了反爬取策略

解决办法：

通过模拟浏览器，来进行数据抓取；

4）网站的模板出现变动

解决办法：

通过不同的配置文件配置不同网页的模板规则，从而减少修改源代码的频率；

项目的架构设计：

因工作原因，本帖持续更新中。。。。。。

图文精华