维护爬虫代理IP池--采集并验证

本文是维护爬虫代理IP池系列文章的第一篇文章,系列教程将会一步步教你搭建你自己的代理IP池。本文介绍了如何采集互联网上的免费的代理IP,并验证IP是否有效。

任务分析

我们爬的免费代理来自于https://www.kuaidaili.com这个网站。

requests将ip地址与端口采集过来,将IPPORT组合成requests需要的代理格式,用requests访问ipcheck.chinahosting.tk,并判断返回的字符串是否是代理IP,若是,则代理IP有效,若不是,则代理IP无效。

数据采集现在已经成为了基本操作了,所以大家直接看代码就可以了,注释应该写的很清楚了。如果是个新手,那么可以看这篇文章:采集wordpress并自动发布文章,这篇文章看懂了,基本上全世界大部分的网站你就都能爬了。

这个站点http://ipcheck.chinahosting.tk/是我个人搭建的用来验证IP的,详情见文章:利用虚拟主机搭建一个验证爬虫代理IP是否有效的服务,大家如果自己用的话最好搭建一个,基本上10多分钟就能搭建完,并且只要点点鼠标。

利用虚拟主机搭建一个验证爬虫代理IP是否有效的服务

经常写爬虫的小伙伴们肯定有自己的代理IP池,我们在验证代理IP是否有效时,往往是利用response=requests.get(ipcheck_url,proxies=proxy)这样的方法去验证,通过访问ipcheck_urlresponse能返回当前访客的ip地址,通过和代理ip对比一下,若一样,则代理ip有效,若response中的ip和你的电脑ip相同,则代理无效。ipcheck_url我们常常是选择的例如站长工具等之类的工具,这类工具往往访问量大,随时可能会出问题,这篇文章教你自己搭建一个验证有效性的这样一个平台,永不掉线,成本为一年20RMB,具体搭建耗时约在15分钟内。

先放一张效果图:

当我访问这个网址时,返回了我电脑的ip地址。