CCbot是什么蜘蛛?遵循robots协议吗?

扬帆号经常查看网站日志,有一天发现ccbot这个蜘蛛,话说各种蜘蛛真是多,但是这个没见过,不知道是什么,出于好奇就百度了一下,和大家一起学习学习。

CCbot是什么蜘蛛?

CCbot,全称为Common Crawl Bot,是一个非营利性基金会维护的一个开放的web爬虫。对于这些爬虫的数据,任何人都可以使用和分析。据说可以使用这些数据来改进语言翻译软件,预测趋势,跟踪疾病的传播等等。

CCbot是什么蜘蛛?遵循robots协议吗?CCbot是什么蜘蛛?遵循robots协议吗?

数据最早于2013年,一直更新到现在。数据非常大,是以TB为单位存储在了Amazon上。

这些数据我们是用不上的,所以扬帆号建议全站屏蔽,尽量不要影响网站速度,我们直接在robots中加入下面代码。

User-agent: CCBot Disallow: /

如果你想为这个非盈利组织做一些贡献,又怕影响网站速度,可以允许它抓取你的网站,然后在robots中设置抓取延迟,比如下面这样。

User-agent: CCBot Crawl-Delay: 2

机器人的IP范围是多少?

旧版本使用IP 38.107.191.66至38.107.191.119。

遵循robots协议吗?

他们的官网说CCBot是遵守robots协议,扬帆号在robots中添加了阻止CCBot抓取,测试结果CCBot确实是遵守robots协议的,所以大家可以放心。

推荐阅读:

robots.txt 写法和使用

Robots.txt入门使用方法指南

(0)
郝哥的头像郝哥注册用户

相关推荐