本帖最后由 孤独的战神 于 2019-6-24 14:08 编辑
最近在工作当中接触了一些关于爬虫项目的内容,自己就做了一下研究,现将自己的研究做了一些梳理,本帖子将从头到尾搭建一个爬虫小项目。 爬虫项目背景: 现在处于这个数据大爆炸的时代,数据就是就是金钱,可以说谁拥有数据谁就拥有话语权——用数据说话,用事实说话。 目前各大软件厂商(例如微信、支付宝、美团等等)拥有庞大的用户群体,而用户的每天会有各种各样的”行为”,这些”行为”成为了这些软件厂商关注的对象。软件厂商通过收集用户的”行为”,然后通过大数据分析,来总结出用户的”行为习惯”,从而进行广告的推广。 爬虫的目的也是一样的,通过爬取数据达到数据收集的目的-----》数据分析-----》业务推广 本项目总体需求: 本项目就基于论坛帖子来进行数据抓取。 1. 多维度分析 访问量、评论数、踩、赞 2. 项目可视化 在个人练习中总结了爬虫项目可能遇到的一下几点问题和解决办法: 1) 频繁的抓取网站数据导致IP被封 解决办法: 部署多个应用分别抓取,降低单节点频繁访问; 如果有实力可以购买代理IP库,随机获取IP进行数据抓取; 给每个页面设置抓取的时间间隔,降低被封的概率; 2)抓取数据URL访问失败 解决办法: 采用HttpClient默认处理方式,重试3次,如果3次失败则认为是无效的URL;
3)网站采取了反爬取策略 解决办法: 通过模拟浏览器,来进行数据抓取; 4) 网站的模板出现变动 解决办法: 通过不同的配置文件配置不同网页的模板规则,从而减少修改源代码的频率; 项目的架构设计:
因工作原因,本帖持续更新中。。。。。。
|