SEO优化之robots.txt
1. 什么是 robots.txt?
robots.txt 文件是一个用于指示网络爬虫(如搜索引擎的爬虫)如何抓取网站内容的文本文件。它通常位于网站的根目录下,通过特定的语法规则,告诉爬虫哪些页面或文件可以被访问和索引,哪些应该被忽略。这个文件的主要目的是控制爬虫的行为,以保护网站的隐私、减少服务器负载,并帮助爬虫更有效地索引网站内容。
主要功能:
- 控制爬虫访问: 通过指定哪些路径可以被爬虫访问,哪些不可以,来控制爬虫的行为。
- 优化索引: 通过提供Sitemap文件的URL,帮助爬虫更有效地索引网站内容。
- 保护隐私: 防止爬虫访问敏感或私密信息,保护用户隐私。
- 减少服务器负载: 通过限制爬虫访问某些资源,减少服务器负载,提高网站性能。
2. robots.txt 的语法
2.1. 基本语法
User-agent: [爬虫名称]
Disallow: [禁止访问的路径]
Allow: [允许访问的路径]
Sitemap: [Sitemap文件的URL]
2.2. 常见用法
- 禁止所有爬虫访问整个网站
User-agent: *
Disallow: /
- 允许所有爬虫访问整个网站
User-agent: *
Disallow:
- 禁止特定爬虫访问特定目录
User-agent: Baiduspider
Disallow: /private/
- 允许特定爬虫访问特定目录
User-agent: Goodbot
Allow: /public/
- 禁止所有爬虫访问特定文件
User-agent: *
Disallow: /secret.html
- 指定Sitemap文件的位置
User-agent: *
Disallow:
Sitemap: http://www.example.com/sitemap.xml
2.3. 关键字说明
User-agent:指定适用的爬虫名称,使用*表示所有爬虫。Disallow:指定禁止访问的路径,留空表示允许所有。Allow:指定允许访问的路径,通常用于在禁止访问的目录中允许特定路径。Sitemap:指定Sitemap文件的URL,帮助爬虫更好地索引网站。
2.4. Demo演示
以下是一个综合示例,展示了如何使用 robots.txt 文件来控制爬虫的访问:
User-agent: *
Disallow: /private/
Disallow: /secret.html
Allow: /public/
User-agent: Baiduspider
Disallow: /
Sitemap: http://www.example.com/sitemap.xml
这个示例文件表示:
- 允许所有爬虫访问
/public/目录,但禁止访问/private/和/secret.html。 - 完全禁止
Baiduspider(百度搜索引擎的爬虫) 访问整个网站。 - 提供 Sitemap 文件的位置,帮助爬虫更好地索引网站。
3. 各大搜索引擎的爬虫名称
各大搜索引擎的爬虫(spider)的User-Agent名称如下: (参考文档:https://www.pigji.com/672.html)
3.1. Google
- 网页以及其他搜索: Googlebot
- 图片搜索: Googlebot-Image
- 视频搜索: Googlebot-Video
3.2. 百度
- 网页以及其他搜索:
Baiduspider - 图片搜索:
Baiduspider-image - 视频搜索:
Baiduspider-video - 新闻搜索:
Baiduspider-news - 百度搜藏:
Baiduspider-favo - 百度联盟:
Baiduspider-cpro - 商务搜索:
Baiduspider-ads
3.3. 必应
- 网页以及其他搜索: Bingbot。用于抓取网页内容并将其编入索引,以便在搜索结果中显示。
- 广告爬虫: AdIdxBot。主要用于抓取与广告相关的网页内容,以便优化广告投放和展示。
3.4. 360搜索
360Spider
3.5. 搜狗搜索
SogouSpider