网站建设中如何禁止百度收录，robots.txt使用详解

发布时间：2025-07-26 文章来源：科e网

robots.txt是一个纯文本协议文件，用于指导搜索引擎爬虫的抓取行为,是指网站可建立一个robots.txt文件来告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取,而搜索引擎则通过读取robots.txt文件来识别这个页面是否允许被抓取。以下是一些常见的robots.txt示例：

robots.txt使用详解

允许所有搜索引擎抓取：

User - agent: *
Allow: /

或者直接创建一个空的robots.txt文件放在网站根目录下，也表示允许所有搜索引擎访问网站的所有部分。

禁止所有搜索引擎抓取：

User - agent: *
Disallow: /

禁止特定搜索引擎抓取：例如禁止百度蜘蛛抓取，可写成：

User - agent: Baiduspider
Disallow: /

允许特定搜索引擎抓取：例如只允许搜狗抓取：

User - agent: Sogou web spider
Disallow:

拒绝所有搜索引擎抓取指定目录：

User - agent: *
Disallow: /admin/
Disallow: /tmp/
Disallow: /abc/

禁止 admin 目录，但允许抓取 admin 目录下的 seo 子目录：

User - agent: *
Allow: /admin/seo/
Disallow: /admin/

禁止抓取 /abc/ 目录下的所有以 ".htm” 为后缀的 URL（包含子目录）：

User - agent: *
Disallow: /abc/*.htm$

禁止抓取网站中所有的动态页面：

User - agent: *
Disallow: /?

禁止百度蜘蛛抓取网站所有的图片：

User - agent: Baiduspider
Disallow: /.*jpg$
Disallow: /.*jpeg$
Disallow: /.*gif$
Disallow: /.*png$

指定网站地图位置：

User - agent: *
Disallow: /private/
Disallow: /temp/
Allow: /temp/public
Sitemap: http://www.example.com/sitemap.xml

这个例子中，禁止所有搜索引擎爬虫访问/private/目录和/temp/目录下的大部分内容，但允许访问/temp/public，同时指定了网站地图的位置。