事实上,我们日志中的许多百度Pider都是被别人伪装的。来解决这个问题。我们必须努力验证百度pider的真实性。本文详细介绍了爬虫的识别方法
当我们根据网站日志分析搜索引擎蜘蛛捕获的网页记录时,实际上很多网站都有一些伪装成百度pider的访问者。这些数据将严重影响我们在日志分析后的判断
为什么这些访问者假装是百度皮德尔来访问我们的网站?最典型的是那些收集你的内容的人。他们知道,许多工具可以看到哪些IP访问网站太大。例如,今天IP访问你的网站10000次是否正常?一定是不正常。但如果他是百度pdier呢?呵呵,这很正常
Mozilla/5.0(兼容;Baiduspider/2.0;+http://www.baidu.com/search/spider.html)
Mozilla/5.0(兼容;Baiduspider渲染/2.0;+http://www.baidu.com/search/spider.html)
Mozilla/5.0(Linux;u;Android4.2.2;zhcn;)AppleWebKit/534.46(KHTML,likeGecko)版本/5.1MobileSafari/10600.6.3(兼容;Baiduspider/2.0;+http://www.baidu.com/search/spider.html)
Mozilla/5.0(iPhone;CPUiPhoneOS9_1likeMacOSX)AppleWebKit/601.1.46(KHTML,likeGecko)版本/9.0Mobile/13B143Safari/601.1(兼容;Baiduspiderrender/2.0;+http://www.baidu.com/search/spider.html)
以上包括百度的常规爬虫和渲染爬虫渲染。这两种爬行动物的区别特征用红色标记
这个问题可以通过DNS反向查找解决。不同平台的验证方法不同。例如,linux/Windows/OS下的验证方法如下:
1。在Linux平台上,可以使用hostip命令反转IP,以确定抓取是否来自Baiduspider。Baiduspider的主机名在百度。Com或百度。JP格式命名,非百度。Com或百度。JP是假的
2。在windows或ibmos/2平台上,可以使用nslookupip命令反转IP,以确定抓取是否来自Baiduspider。打开命令处理器并输入nslookupxxxxxx。xxx。XXX(IP地址)可以解析IP以确定它是否是从Baiduspider获取的。Baiduspider的主机名用百度表示。Com或百度。JP格式命名,非百度。Com或百度。JP是假的
3。在MacOS平台上,可以使用dig命令反转IP地址,以确定抓取是否来自Baiduspider。打开命令处理器并输入digxxx。xxx。XXX(IP地址)可以解析IP以确定它是否是从Baiduspider获取的。Baiduspider的主机名用百度表示。Com或百度。JP格式命名,非百度。Com或百度。JP是假的。