大橙子网站建设,新征程启航
为企业提供网站建设、域名注册、服务器等服务
这篇文章给大家分享的是有关爬虫如何做代理ip的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。
专注于为中小企业提供网站制作、网站设计服务,电脑端+手机端+微信端的三站合一,更高效的管理,为中小企业宝清免费做网站提供优质的服务。我们立足成都,凝聚了一批互联网行业人才,有力地推动了近1000家企业的稳健成长,帮助中小企业通过网站建设实现规模扩充和转变。
一、代理IP的获取
可以从以下几个途径得到:
1、免费IP。
从免费的网站上获取,质量很低,能用的IP极少
2、收费代理。
对于收费的代理服务,质量高很多
3、搭建代理服务器。
自己搭建代理服务器,稳定,但需要大量的服务器资源。
本文的代理IP池是通过爬虫事先从多个免费网站上获取代理IP之后,再做检查判断IP是否可用,可用的话就存放到MongoDB中,最后展示到前端的页面上。
二、获取可用Proxy
获取代理的核心代码是ProxyManager,它采用RxJava2来实现,主要做了以下几件事:
1、创建ParallelFlowable。
针对每一个提供免费代理IP的页面并行地抓取。
2、针对每一个页面进行抓取。
返回List
3、IP校验。
对每一个页面获取的代理IP列表进行校验,判断是否可用
4、依次保存到proxyList。
在做爬虫时,自己维护一个可用的代理IP池是很有必要的事情,当然想要追求更高稳定性的代理IP还是考虑高质量的比较好。
感谢各位的阅读!关于“爬虫如何做代理ip”这篇文章就分享到这里了,希望以上内容可以对大家有一定的帮助,让大家可以学到更多知识,如果觉得文章不错,可以把它分享出去让更多的人看到吧!