技术知识分享

百度搜索蜘蛛IP段规律

腾讯云12月活动

最近小白在学习SEO技术,顺便就找了下百度蜘蛛权重的识别。然后就发现一个网站可以分析网站日志。可以自动识别高权重的蜘蛛都抓取了什么网页。而且可以按蜘蛛区分收录时效。非常不错。发出来分享给大家学习一下。

网站日志分析工具:www.loghao.com

好像好几年没更新了,不过百度的蜘蛛貌似也没有更新IP段。

使用方法
如果你跟我一样用的是宝塔面板加nginx。那么到/www/wwwlogs 下载对应日志。输入第一行的网址,然后上传上去点“分析”。因为日志是实时在写入的,有时候会有断档现象,可以多下载几次。这样就能保证分析完整了。

因为宝塔生成的网站日志会比较大,建议使用计划任务的切割工具按天/小时切割下日志。嫌麻烦的可以购买宝塔网站监控报表插件。

点击领券0.99元体验宝塔专业版一个月。免费使用所有宝塔面板插件(含网站监控报表)
券后购买永久版专业版:1台 = 1188元、3台 = 2488元、5台 = 2988元。
优惠券购买单个插件也可以抵用。

网站监控报表的日志在 /www/server/total/logs ,这个目录。

百度蜘蛛网站日志分析

上面的谷歌蜘蛛,搜狗蜘蛛,雅虎蜘蛛,360蜘蛛都可以忽略。反正他们也没说是什么类型的。

百度蜘蛛的类型就非常齐全了,下面介绍下这些蜘蛛的规律。

  1. 123.125.68.x 沙盒 ,这个蜘蛛来的次数比其他蜘蛛多,那就代表网站即将进入沙盒期或者即将降权。这个时候要非常注意了。
  2. 220.181.68.x 沙盒,代表快进入沙盒或者即将被K站。
  3. 220.181.7.x、123.125.66.* 预备抓取新站。其实没啥软用。
  4. 121.14.89.x 新站考察蜘蛛,这个来了说明收录有希望了。
  5. 203.208.60.x 网站异常 ,新站或者服务器出现问题后,如果已经建站超3个月了建议查看服务器状态。或者去百度站长查看有没有抓取异常。
  6. 210.72.225.* 巡逻 很少见,感觉应该没啥用。撑死来逛逛那种,逛了也不会收录。
  7. 123.125.71.106 ,123.125.71.95 ,123.125.71.97,123.125.71.117 ,123.125.71.x 低权重,被这个蜘蛛爬的页面得很久才能site放出来,可以看看文章是不是采集的,建议改善文章质量。
  8. 220.181.108.95 隔日快照,220.181.108这个段应该都是,只要被这个蜘蛛光顾了,首页就会更新快照。
  9. 220.181.108.92 权重抓取,这个IP抓的基本都是首页。如果内页也被抓了妥妥的文章被收录,次日出快照。220.181 这个段应该都是比较高权重的。
  10. 220.181.108.91 综合权重 抓取内页和其他页面的。这个蜘蛛抓的一般24小时内就能放出来。
  11. 220.181.108.75 内页权重,其他同上。
  12. 220.181.108.86 ,220.181.108.89,220.181.108.94,220.181.108.97,220.181.108.80,220.181.108.77,220.181.108.83 权重首页,首页抓取蜘蛛。返回代码304 0 0 则表示未更新。

注:一般抓取成功返回代码是“200 0 0”,没更新过“304 0 0”。不是这两个也没事。主要还是看IP段,特别是K站那种。220.181.108.x 抓取过的文章一般次日就收录了。

 

未经允许不得转载:pc6a学习分享 » 百度搜索蜘蛛IP段规律
阿里云服务器双12活动
宝塔面板永久版优惠券

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址
'); })();