网站建设中如何禁止百度收录,robots.txt使用详解
robots.txt是一个纯文本协议文件,用于指导搜索引擎爬虫的抓取行为,是指网站可建立一个robots.txt文件来告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取,而搜索引擎则通过读取robots.txt文件来识别这个页面是否允许被抓取。以下是一些常见的robots.txt示例:
允许所有搜索引擎抓取:
User - agent: *
Allow: /
或者直接创建一个空的robots.txt文件放在网站根目录下,也表示允许所有搜索引擎访问网站的所有部分。
禁止所有搜索引擎抓取:
User - agent: *
Disallow: /
禁止特定搜索引擎抓取:例如禁止百度蜘蛛抓取,可写成:
User - agent: Baiduspider
Disallow: /
允许特定搜索引擎抓取:例如只允许搜狗抓取:
User - agent: Sogou web spider
Disallow:
拒绝所有搜索引擎抓取指定目录:
User - agent: *
Disallow: /admin/
Disallow: /tmp/
Disallow: /abc/
禁止 admin 目录,但允许抓取 admin 目录下的 seo 子目录:
User - agent: *
Allow: /admin/seo/
Disallow: /admin/
禁止抓取 /abc/ 目录下的所有以 ".htm” 为后缀的 URL(包含子目录):
User - agent: *
Disallow: /abc/*.htm$
禁止抓取网站中所有的动态页面:
User - agent: *
Disallow: /?
禁止百度蜘蛛抓取网站所有的图片:
User - agent: Baiduspider
Disallow: /.*jpg$
Disallow: /.*jpeg$
Disallow: /.*gif$
Disallow: /.*png$
指定网站地图位置:
User - agent: *
Disallow: /private/
Disallow: /temp/
Allow: /temp/public
Sitemap: http://www.example.com/sitemap.xml
这个例子中,禁止所有搜索引擎爬虫访问/private/目录和/temp/目录下的大部分内容,但允许访问/temp/public,同时指定了网站地图的位置。