大橙子网站建设,新征程启航
为企业提供网站建设、域名注册、服务器等服务
最后查看网站日志发现有很多陌生的ip一直在访问网站,想知道这些ip是别人在爬网站数据,还是直接有用的ip呢?
创新互联建站介绍反查IP识别真假百度蜘蛛
windows系统
可以使用nslookup ip命令反解ip来 判断是否来自Baiduspider的抓取。
打开命令处理器
输入nslookup xxx.xxx.xxx.xxx(IP地址)就能解析ip, 来判断是否来自Baiduspider的抓取,Baiduspider的hostname以.baidu.com 或.baidu.jp 的格式命名,非 .baidu.com 或 .baidu.jp 即为冒充。
linux系统
可以使用host ip命令反解ip来判断是否来自Baiduspider的抓取。Baiduspider的hostname以 .baidu.com 或 .baidu.jp 的格式命名,非 .baidu.com 或 .baidu.jp 即为冒充。
mac os系统
可以使用dig 命令反解ip来 判断是否来自Baiduspider的抓取。
打开命令处理器 输入dig xxx.xxx.xxx.xxx(IP地 址)就能解析ip, 来判断是否来自Baiduspider的抓取,Baiduspider的hostname以 .baidu.com 或.baidu.jp 的格式命名,非 .baidu.com 或 .baidu.jp 即为冒充。
查看ip是否是真的百度蜘蛛Baiduspider
我们经常在网站日志中看到各种爬虫抓取记录,最常见的就是百度蜘蛛等搜索引擎,以百度为例,通常我们判断是否是百度蜘蛛抓取看用户代理字符串也就是User-Agent,但是User-Agent是可以模拟的,所以很多时候也会有虚假的模拟伪装成百度蜘蛛来抓取,这时候我们就需要学会分辨真伪。
移动UA:Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,likeGecko) Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0;+http://www.baidu.com/search/spider.html)
PC UA:Mozilla/5.0 (compatible; Baiduspider/2.0;+http://www.baidu.com/search/spider.html)
新增渲染UA:
移动UA:Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 likeMac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143Safari/601.1 (compatible; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)
PC UA:Mozilla/5.0 (compatible;Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)
需要注意的是百度新增了一个移动的User-Agent,和一个PC的User-Agent。我们知道了百度蜘蛛的User-Agent,如何正确识别和判断某条抓取是否是真实的百度蜘蛛。
如何识别百度蜘蛛1、选我们需要通过关键词找User-Agent中是否包含Baiduspider;
2、如果想区分移动和PC的蜘蛛的话,我们还需要在结果中再进行关键词过滤,移动端的User-Agent包含:Android 、iPhone、Mobile等三个中至少一个。
3、通过上述操作我们可以分辨出哪些抓取是百度蜘蛛抓取,但并不能分辨真伪。
1、验证百度蜘蛛真伪我们一般使用的是DNS反查IP的方式来进行判断,选我们需要找到上述抓取记录中蜘蛛的IP。
2、以windows操作系统为例,开始运行中输入cmd 弹出窗口中输入 nslookup (上述IP地址),判断百度蜘蛛的真伪,真是百度蜘蛛结果中会返回以*.baidu.com 或*.baidu.jp 的格式命名hostname,如不包含则为假百度蜘蛛。
3、也有在线百度蜘蛛真伪查询工具可直接查询。
除了上面的方面我们还可以了解一些百度蜘蛛IP段判断网站是什么样的百度蜘蛛在爬取网站内容
百度蜘蛛IP优质段
116.179.32.*:新版百度蜘蛛,高权重段,一般抓取文章页。IP段位于山西阳泉联通。百度云计算阳泉中心位于世界最大中文搜索引擎百度公司创始人李彦宏的家乡山西省阳泉经济开发区东区。
220.181.108.75:重点抓取更新文章的内页达到90%,8%抓取首页,2%其他。权重IP 段,爬过的文章或首页基本24小时放出来。
220.181.108.77:专用抓首页IP权重段,一般返回代码是304 0 0 代表未更新。
220.181.108.80:专用抓取首页IP权重段,一般返回代码是304 0 0 代表未更新。
220.181.108.82:抓取tag页面。
220.181.108.83:专用抓取首页IP 权重段,一般返回代码是304 0 0 代表未更新。
220.181.108.86:专用抓取首页IP权重段,一般返回代码是304 0 0 代表未更新。
220.181.108.89:专用抓取首页IP权重段,一般返回代码是304 0 0 代表未更新。
220.181.108.91:属于综合的,主要抓取首页和内页或其他,属于权重IP 段,爬过的文章或首页基本24小时放出来。
220.181.108.92:同上98%抓取首页,可能还会抓取其他 (不是指内页),属于权重IP段此段爬过的文章或首页基本24小时放出来。
220.181.108.94:专用抓取首页IP 权重段,一般返回代码是304 0 0 代表未更新。
220.181.108.93:重点抓取内页,爬过的文章或首页基本24小时放出来。
220.181.108.95:这个是百度抓取首页的专用IP,如是220.181.108段的话,基本来说你的网站会天天隔夜快照,绝对错不了的。
220.181.108.97:专用抓取首页IP 权重段,一般返回代码是304 0 0 代表未更新。
220.181.108.115:重点抓取内页,爬过的文章或首页基本24小时放出来。
220.181.108.119:专用抓取首页IP 权重段,一般返回代码是304 0 0 代表未更新。
220.181.108.156 重点抓取内页,爬过的文章或首页基本24小时放出来。
220.181.108.158:重点抓取内页,爬过的文章或首页基本24小时放出来。
220.181.108.184:重点抓取内页,爬过的文章或首页基本24小时放出来。
220.181.108.180:重点抓取内页,爬过的文章或首页基本24小时放出来。
220.181.108.*:主要是抓取首页占80%,内页占30%,这此爬过的文章或首页,绝对24小时内放出来和隔夜快照的!一般成功抓取返回代码都是 200 0 0返回304 0 0代表网站没更新,蜘蛛来过,如果是 200 0 64别担心这不是K站,可能是网站是动态的,所以返回就是这个代码。
百度蜘蛛IP普通段
60.172.229.61:代表百度蜘蛛IP造访,准备抓取你东西,抓取网页的百度蜘蛛。
61.129.45.72:代表百度蜘蛛IP造访,准备抓取你东西,抓取网页的百度蜘蛛。
61.135.162.*:代表百度蜘蛛IP造访,准备抓取你东西,抓取网页的百度蜘蛛。
61.135.168.*:抓取图片的百度蜘蛛。
121.14.89.* :这个ip段作为度过新站考察期,很少。通常有它光顾的时候,网站基本上是没有排名的。
123.15.**.**:百度图片爬虫。
123.125.66.*:代表百度蜘蛛IP造访,准备抓取你东西,抓取网页的百度蜘蛛。
123.125.71.* 抓取内页收录的,权重较低,爬过此段的内页文章暂时被收录但不放出来,因不是原创或采集文章。
124.166.232.*:可能为新版新站专属百度蜘蛛。
125.90.88.*:广东茂名市电信也属于百度蜘蛛IP 主要造成成分,是新上线站较多,还有使用过站长工具,或SEO综合检测造成的,没有多大用。
159.226.50.* :百度蜘蛛。
180.76.5.*:百度蜘蛛北京联通。
180.76.5.87:百度蜘蛛北京电信。
210.72.225.*:这个ip段不间断巡逻各站,就是路过一下。
220.181.7.*:代表百度蜘蛛IP造访,准备抓取你东西,抓取网页的百度蜘蛛。
百度蜘蛛IP垃圾段
百度自家
61.135.186.* :百度联盟爬虫,百度统计。
61.135.165.134:百度竞价蜘蛛北京联通。
61.135.169.*:百度公司内部专用IP;
111.206.198.*:百度渲染蜘蛛,专门抓取js、css和图片用的,百度站长工具落地着陆页检测IP。
111.206.221.*:百度渲染蜘蛛,专门抓取js、css和图片用的,百度站长工具落地着陆页检测IP。
117.34.74.66:百度竞价蜘蛛西安市电信。
118.122.188.194:百度竞价蜘蛛。
119.63.196.9:百度竞价蜘蛛。
123.125.67.* :百度站长工具的IP sitemap。
125.39.78.185:百度竞价蜘蛛天津联通。
203.119.241.*:百度主动推送的IP。
220.181.51.*:百度站长工具的IP sitemap。
220.181.108.120:抓取/robots.txt。
220.181.108.146:抓取/robots.txt。
百度沙盒
123.125.68.*:这个蜘蛛经常来,别的来的少,表示网站可能要进入沙盒了,或被者降权。
180.76.15.*:降权蜘蛛,有这个ip说明网站不会在收录了,一直到这个ip段消失。
220.181.68.*:每天这个IP 段只增不减很有可能进沙盒或K站。
其他
42.194.242.213:搜外滴滴友链抓取专用蜘蛛。
61.147.98.146:站长工具模仿的百度蜘蛛。
61.188.39.16:站长工具模仿的百度蜘蛛。
113.98.254.245:站长工具模仿的百度蜘蛛。
117.21.220.245:站长工具模仿的百度蜘蛛。
117.28.255.42:站长工具模仿的百度蜘蛛。
121.10.141.* :114站长工具箱。
124.248.34.52:搜外站长工具蜘蛛。
180.149.130.*:伪装百度蜘蛛IP。
222.77.187.33:该IP为站长站友链检测伪蜘蛛IP位于福建省福州市。