Robots.txt入门使用方法指南

文章目录

1 什么是Robots.txt文件?2 Robots.txt用法2.1 写 robots 文件注意:2.2 常见各大搜索引擎蜘蛛名称:3 测试您的Robots.txt文件

Robots.txt文件能控制哪些搜索引擎可以爬您的网站,可以爬网站的哪些页面,或者哪些页面不能爬,Robots.txt是一个简单的文本文件,位于您网站的根目录中。正确使用Robots.txt,可以提高抓取频率,它也会间接影响您的SEO效果。

什么是Robots.txt文件?

robots.txt文件是一个协议,每个可靠的机器人必须遵循的协议。某些非法机器人(一些恶意爬虫)不遵守这项协议。

可以通过输入任何URL并在末尾添加:/robots.txt来查询任何网站的Robots.txt

Robots.txt用法

禁止所有搜索引擎访问网站的任何部分:

User-agent: *Disallow: /

允许所有搜索引擎蜘蛛访问(或者建一个空文件“robots.txt”):

User-agent: *Allow: /

禁止某个搜索引擎访问(只是举例,千万不要禁止百度):

User-agent: BaiduspiderDisallow: /

允许某个搜索引擎访问:

User-agent: BaiduspiderAllow: /

只允许某个搜索引擎访问,其他搜索引擎禁止访问:

User-agent: BaiduspiderDisallow:User-agent: *Disallow: /

只禁止某个搜索引擎访问,其他搜索引擎允许访问:

User-agent: BaiduspiderDisallow: /User-agent: *Disallow:

User-agent

User-agent 代表蜘蛛名称,例如:

User-agent: Baiduspider 代表针对百度蜘蛛。User-agent: * 代表所有的搜索引擎,*是一个通配符。

Disallow

Disallow 表示不允许,代表禁止蜘蛛爬取的文件或目录。例如:

Disallow: /admin/ 代表禁止爬取 admin 目录下的所有文件。Disallow: /cgi-bin/*.htm 代表禁止访问 /cgi-bin/ 目录下的所有以.htm为后缀的 URL(包含子目录)。Disallow: /? 代表禁止访问网站中所有包含问号?的网址。Disallow: /.jpg$ 代表禁止爬取网页所有的.jpg格式的图片。Disallow:/ad/ct.html 代表禁止爬取 ad 文件夹下的 ct.html 文件。

Allow

Allow 表示允许,代表允许蜘蛛爬取的目录或文件。例如:

Allow: /cgi-bin/ 代表允许爬取 cgi-bin 目录下的目录。Allow: /tmp 代表允许爬取 tmp 的整个目录。Allow: .htm$ 代表仅允许访问以.htm为后缀的 URL。Allow: .gif$ 允许爬取网页和 GIF 格式的图片。写 robots 文件注意:不要写绝对路径,就是不要带网站域名,用 / 代替即可。robots 文件中的所有符号都是在英文状态下写的。注意空格,例如 Disallow: /admin/ 中 : 后面紧跟着一个空格。注意大小写,例如 Disallow: /admin/ 中 Disallow 的D是大写的。常见各大搜索引擎蜘蛛名称:google 蜘蛛: Googlebot百度蜘蛛: Baiduspider360蜘蛛:360Spiderbing 蜘蛛:Bingbot搜狗蜘蛛:Sogou web spider有道蜘蛛 :YodaoBot头条蜘蛛:Bytespider测试您的Robots.txt文件

打开百度搜索资源平台 – 数据统计 – Robots – 检测并更新,在下面输入您的url,点击 – 校验,显示 允许,说明robots.txt设置正确。

Robots.txt入门使用方法指南Robots.txt入门使用方法指南
(0)
郝哥的头像郝哥注册用户

相关推荐