建站资源分享
网络热门资源分享

robots.txt是什么,robots.txt在网站当中有什么作用

robots.txt文件是网站用于向搜索引擎爬虫说明哪些页面可以抓取、哪些页面不能抓取的一种标准文件,它可以更好地管理和控制搜索引擎对网站的抓取。关于robots.txt文件,建站经验分享来详细说明一下:

robots.txt是什么,robots.txt在网站当中有什么作用插图

1. robots.txt介绍

robots.txt全称是Robots Exclusion Protocol,意思是机器人排除标准协议。它允许网站通过robots.txt文件来表明网站中的哪些内容是不应该被搜索引擎爬虫获取的。主要用于保护网站中的一些敏感页面不被搜索引擎索引,从而达到保护网站隐私或一些未完工页面的目的。

2. robots.txt作用

(1)通过Disallow指令,可以设置禁止爬虫获取的目录或页面。

(2)通过Allow指令,可以指定允许爬虫抓取的目录或页面。

(3)可以设置部分爬虫的访问权限,即针对特定爬虫的允许或禁止设置。

(4)可通过Sitemap指令告知爬虫网站地图位置,便于爬虫索引。

(5)通过 Crawl-delay 指令可以设置爬取速率,避免爬取过快给服务器带来过载。

3. robots.txt位置

robots.txt文件需要放在网站的根目录下,一般是和网站首页index.html同级目录。浏览器直接输入“域名+/robots.txt”可以访问。

4. robots.txt语法

robots.txt遵循特定语法,通过User-agent、Disallow、Allow等指令进行设置。

  • User-agent就是指定爬虫程序的名称
  • Disallow是禁止爬虫访问的目录
  • Allow则是允许访问的目录

5. robots.txt使用场景

(1)新站点建设初期使用,避免搜索引擎过早抓取未完工页面。

(2)屏蔽一些用户隐私或机密、敏感信息页面。

(3)拒绝爬虫访问一些非原创内容页面,如盗链页面。

(4)在做全站改版时,可以用robots.txt屏蔽所有页面,然后再逐步放开。

(5)根据自身需求调整特定搜索引擎的爬取权限。

6、如何正确设置robots.txt

综上所述,robots.txt在管理和控制搜索引擎爬虫方面起重要作用,网站建设中需要重视利用好它。因此如果在网站当中,特别是在WordPress当中不知道如何配置robots.txt文件或者是需要通设置robots.txt文件来禁止指定蜘蛛抓取网站内容,可以参考下面两篇文章:

 

赞(1)
未经允许不得转载:建站经验分享 » robots.txt是什么,robots.txt在网站当中有什么作用