010-6735-5430
首页 > 资讯中心 > 网站优化SEO
WEB+

网站建设

Webpage construct

网站建设中如何禁止百度收录,robots.txt使用详解

robots.txt是一个纯文本协议文件,用于指导搜索引擎爬虫的抓取行为,是指网站可建立一个robots.txt文件来告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取,而搜索引擎则通过读取robots.txt文件来识别这个页面是否允许被抓取。以下是一些常见的robots.txt示例:


robots.txt使用详解


允许所有搜索引擎抓取:

User - agent: *
Allow: /

或者直接创建一个空的robots.txt文件放在网站根目录下,也表示允许所有搜索引擎访问网站的所有部分。


禁止所有搜索引擎抓取:

User - agent: *
Disallow: /


禁止特定搜索引擎抓取:例如禁止百度蜘蛛抓取,可写成:

User - agent: Baiduspider
Disallow: /


允许特定搜索引擎抓取:例如只允许搜狗抓取:

User - agent: Sogou web spider
Disallow:


拒绝所有搜索引擎抓取指定目录:

User - agent: *
Disallow: /admin/
Disallow: /tmp/
Disallow: /abc/


禁止 admin 目录,但允许抓取 admin 目录下的 seo 子目录:

User - agent: *
Allow: /admin/seo/
Disallow: /admin/


禁止抓取 /abc/ 目录下的所有以 ".htm” 为后缀的 URL(包含子目录):

User - agent: *
Disallow: /abc/*.htm$


禁止抓取网站中所有的动态页面:

User - agent: *
Disallow: /?


禁止百度蜘蛛抓取网站所有的图片:

User - agent: Baiduspider
Disallow: /.*jpg$
Disallow: /.*jpeg$
Disallow: /.*gif$
Disallow: /.*png$


指定网站地图位置:

User - agent: *
Disallow: /private/
Disallow: /temp/
Allow: /temp/public
Sitemap: http://www.example.com/sitemap.xml

这个例子中,禁止所有搜索引擎爬虫访问/private/目录和/temp/目录下的大部分内容,但允许访问/temp/public,同时指定了网站地图的位置。

上一篇网站未被百度收录及权限骤降的原因解析与优化策略
下一篇没有了
相关文章
马上联系科e顾问获取建站方案&报价!
电话咨询:010-6735-5430
您还可以预约资深顾问回电
隐私信息保护中,请放心填写。
在线咨询 获取方案