Skip to main content

SEO优化之robots.txt

1. 什么是 robots.txt?

robots.txt 文件是一个用于指示网络爬虫(如搜索引擎的爬虫)如何抓取网站内容的文本文件。它通常位于网站的根目录下,通过特定的语法规则,告诉爬虫哪些页面或文件可以被访问和索引,哪些应该被忽略。这个文件的主要目的是控制爬虫的行为,以保护网站的隐私、减少服务器负载,并帮助爬虫更有效地索引网站内容。

主要功能:

  • 控制爬虫访问: 通过指定哪些路径可以被爬虫访问,哪些不可以,来控制爬虫的行为。
  • 优化索引: 通过提供Sitemap文件的URL,帮助爬虫更有效地索引网站内容。
  • 保护隐私: 防止爬虫访问敏感或私密信息,保护用户隐私。
  • 减少服务器负载: 通过限制爬虫访问某些资源,减少服务器负载,提高网站性能。

2. robots.txt 的语法

2.1. 基本语法

User-agent: [爬虫名称]
Disallow: [禁止访问的路径]
Allow: [允许访问的路径]
Sitemap: [Sitemap文件的URL]

2.2. 常见用法

  1. 禁止所有爬虫访问整个网站
User-agent: *
Disallow: /
  1. 允许所有爬虫访问整个网站
User-agent: *
Disallow:
  1. 禁止特定爬虫访问特定目录
User-agent: Baiduspider
Disallow: /private/
  1. 允许特定爬虫访问特定目录
User-agent: Goodbot
Allow: /public/
  1. 禁止所有爬虫访问特定文件
User-agent: *
Disallow: /secret.html
  1. 指定Sitemap文件的位置
User-agent: *
Disallow:
Sitemap: http://www.example.com/sitemap.xml

2.3. 关键字说明

  • User-agent:指定适用的爬虫名称,使用 * 表示所有爬虫。
  • Disallow:指定禁止访问的路径,留空表示允许所有。
  • Allow:指定允许访问的路径,通常用于在禁止访问的目录中允许特定路径。
  • Sitemap:指定Sitemap文件的URL,帮助爬虫更好地索引网站。

2.4. Demo演示

以下是一个综合示例,展示了如何使用 robots.txt 文件来控制爬虫的访问:

User-agent: *
Disallow: /private/
Disallow: /secret.html
Allow: /public/

User-agent: Baiduspider
Disallow: /

Sitemap: http://www.example.com/sitemap.xml

这个示例文件表示:

  • 允许所有爬虫访问 /public/ 目录,但禁止访问 /private//secret.html
  • 完全禁止 Baiduspider(百度搜索引擎的爬虫) 访问整个网站。
  • 提供 Sitemap 文件的位置,帮助爬虫更好地索引网站。

3. 各大搜索引擎的爬虫名称

各大搜索引擎的爬虫(spider)的User-Agent名称如下: (参考文档:https://www.pigji.com/672.html)

3.1. Google

  • 网页以及其他搜索: Googlebot
  • 图片搜索: Googlebot-Image
  • 视频搜索: Googlebot-Video

3.2. 百度

  • 网页以及其他搜索: Baiduspider
  • 图片搜索: Baiduspider-image
  • 视频搜索: Baiduspider-video
  • 新闻搜索: Baiduspider-news
  • 百度搜藏: Baiduspider-favo
  • 百度联盟: Baiduspider-cpro
  • 商务搜索: Baiduspider-ads

3.3. 必应

  • 网页以及其他搜索: Bingbot。用于抓取网页内容并将其编入索引,以便在搜索结果中显示。
  • 广告爬虫: AdIdxBot。主要用于抓取与广告相关的网页内容,以便优化广告投放和展示。

3.4. 360搜索

360Spider

3.5. 搜狗搜索

SogouSpider