设置网站robots.txt需要注意的要点以及如何正确配置robots!我来详细解释下:
1. robots.txt的作用
robots.txt是告诉搜索引擎爬虫哪些页面可以抓取,哪些页面不能抓取的一个指令文件,可以更好地管理搜索引擎对网站的爬取,保护网站敏感信息。
2. robots.txt位置
robots.txt需要放在网站根目录下,与网站首页index.html同级。各大搜索引擎会自动查找此文件。
3. 注意语法规范
robots.txt遵循特定语法,必须正确书写各指令与路径,否则可能无法生效。常用指令有User-agent、Disallow、Allow等。
4. 仅阻止搜索引擎
robots.txt只能阻止搜索引擎爬虫,对普通用户没有任何限制作用。不要误以为能够提高安全性。
5. 不要过度屏蔽
过度屏蔽访问会导致网站内容无法被收录。可以用Allow指令先允许爬虫访问整站,再排除个别页面。
6. 排除敏感数据
页面记得使用Disallow指令排除包含隐私信息、未完工页面、非原创内容等敏感页面。
7. 记得允许爬虫访问Sitemap
通过Sitemap可以让爬虫更完整地抓取网站,所以记得创建Sitemap并在robots.txt中指定。
8. 逐步放开新的页面
网站改版后可以先禁止爬虫全部抓取,待网站稳定后再逐步允许访问新的页面。
9. 定期检查robots.txt
要注意根据网站页面变动来更新robots.txt,确认各指令设置依然有效。
10. 测试指令生效
可以使用搜索引擎测试工具来验证robots.txt指令是否生效。
11. 无法屏蔽已经被爬取页面
robots.txt只能针对未来的爬取,对已经被爬取并收录的页面无效。
综上所述,这些是设置网站robots.txt需要注意的要点,按照语法要求正确配置可以更好地管理搜索引擎的爬取,达到保护网站的目的。
WordPress作为最常用的博客建站程序,使用WordPress搭建网站的个人、企业比较多,因此设置好WordPress robots.txt文件也是非常重要的,关于WordPress robots.txt配置可以参考下面文章:
13、通过robots.txt禁止ChatGPT抓取内容训练
目前国内外很多AI聊天机器人可以使用,其中ChatGPT已经成为了行业的标杆,目前来说AI聊天机器人都是通过知识训练来增强对话能力的,因此ChatGPT也有通过网络来抓取内容进行训练的蜘蛛“GPTBot”,如果不需要GPTBot蜘蛛抓取我们的网站或者需要屏蔽指定的蜘蛛,可以通过设置robots.txt来禁止。详情可以参考下面文章: