SEO优化之robots.txt

1. 什么是 robots.txt？
2. robots.txt 的语法
3. 各大搜索引擎的爬虫名称

1. 什么是 robots.txt？

robots.txt 文件是一个用于指示网络爬虫（如搜索引擎的爬虫）如何抓取网站内容的文本文件。它通常位于网站的根目录下，通过特定的语法规则，告诉爬虫哪些页面或文件可以被访问和索引，哪些应该被忽略。这个文件的主要目的是控制爬虫的行为，以保护网站的隐私、减少服务器负载，并帮助爬虫更有效地索引网站内容。

主要功能：

控制爬虫访问： 通过指定哪些路径可以被爬虫访问，哪些不可以，来控制爬虫的行为。
优化索引： 通过提供Sitemap文件的URL，帮助爬虫更有效地索引网站内容。
保护隐私： 防止爬虫访问敏感或私密信息，保护用户隐私。
减少服务器负载： 通过限制爬虫访问某些资源，减少服务器负载，提高网站性能。

2. robots.txt 的语法

2.1. 基本语法

User-agent: [爬虫名称]
Disallow: [禁止访问的路径]
Allow: [允许访问的路径]
Sitemap: [Sitemap文件的URL]

2.2. 常见用法

禁止所有爬虫访问整个网站

User-agent: *
Disallow: /

允许所有爬虫访问整个网站

User-agent: *
Disallow:

User-agent: Baiduspider
Disallow: /private/

User-agent: Goodbot
Allow: /public/

禁止所有爬虫访问特定文件

User-agent: *
Disallow: /secret.html

指定Sitemap文件的位置

User-agent: *
Disallow:
Sitemap: http://www.example.com/sitemap.xml

2.3. 关键字说明

User-agent：指定适用的爬虫名称，使用 * 表示所有爬虫。
Disallow：指定禁止访问的路径，留空表示允许所有。
Allow：指定允许访问的路径，通常用于在禁止访问的目录中允许特定路径。
Sitemap：指定Sitemap文件的URL，帮助爬虫更好地索引网站。

2.4. Demo演示

以下是一个综合示例，展示了如何使用 robots.txt 文件来控制爬虫的访问：

User-agent: *
Disallow: /private/
Disallow: /secret.html
Allow: /public/

User-agent: Baiduspider
Disallow: /

Sitemap: http://www.example.com/sitemap.xml

这个示例文件表示：

允许所有爬虫访问 /public/ 目录，但禁止访问 /private/ 和 /secret.html。
完全禁止 Baiduspider(百度搜索引擎的爬虫) 访问整个网站。
提供 Sitemap 文件的位置，帮助爬虫更好地索引网站。

3. 各大搜索引擎的爬虫名称

各大搜索引擎的爬虫（spider）的User-Agent名称如下: (参考文档：https://www.pigji.com/672.html)

3.1. Google

网页以及其他搜索： Googlebot
图片搜索： Googlebot-Image
视频搜索： Googlebot-Video

3.2. 百度

网页以及其他搜索: Baiduspider
图片搜索: Baiduspider-image
视频搜索: Baiduspider-video
新闻搜索: Baiduspider-news
百度搜藏: Baiduspider-favo
百度联盟: Baiduspider-cpro
商务搜索: Baiduspider-ads

3.3. 必应

网页以及其他搜索: Bingbot。用于抓取网页内容并将其编入索引，以便在搜索结果中显示。
广告爬虫: AdIdxBot。主要用于抓取与广告相关的网页内容，以便优化广告投放和展示。

3.4. 360搜索

360Spider

3.5. 搜狗搜索

SogouSpider

1. 什么是 robots.txt？​

2. robots.txt 的语法​

2.1. 基本语法​

2.2. 常见用法​

2.3. 关键字说明​

2.4. Demo演示​

3. 各大搜索引擎的爬虫名称​

3.1. Google​

3.2. 百度​

3.3. 必应​

3.4. 360搜索​

3.5. 搜狗搜索​