在一些情况下为了SEO我们要设置网站的某些页面不被搜索引擎收录,例如我们的后台登陆页面等等,所以通过网络查阅现整理了两种方法,一种是通过网站根目录的Robots.txt文件设置,另一种是在html页面的都不设置meta标签的方法。
第一种方法:Robots.txt
搜索引擎使用spider程序自动访问互联网上的网页并获取网页信息。spider在访问一个网站时,会首先会检查该网站的根域下是否有一个叫做 robots.txt的纯文本文件,这个文件用于指定spider在您网站上的抓取范围。您可以在您的网站中创建一个robots.txt,在文件中声明 该网站中不想被搜索引擎收录的部分或者指定搜索引擎只收录特定的部分。
请注意,仅当您的网站包含不希望被搜索引擎收录的内容时,才需要使用robots.txt文件。如果您希望搜索引擎收录网站上所有内容,请勿建立robots.txt文件。
作用 | 方法 |
---|---|
禁止所有搜索引擎访问网站的任何部分 | User-agent: * Disallow: / |
允许所有的robot访问 | User-agent: * Allow: / |
仅禁止Baiduspider访问您的网站 | User-agent: Baiduspider Disallow: / |
仅允许Baiduspider访问您的网站 | User-agent: Baiduspider Allow: / User-agent: * Disallow: / |
仅允许Baiduspider以及Googlebot访问 | User-agent: Baiduspider Allow: / User-agent: Googlebot Allow: / User-agent: * Disallow: / |
禁止spider访问特定目录 |
User-agent: * Disallow: /cgi-bin/ Disallow: /tmp/ Disallow: /~joe/ |
允许访问特定目录中的部分url | User-agent: * Allow: /cgi-bin/see Allow: /tmp/hi Allow:/~joe/look Disallow: /cgi-bin/ Disallow: /tmp/ Disallow: /~joe/ |
使用”*”限制访问url 禁止访问/cgi-bin/目录下的所有以”.htm”为后缀的URL(包含子目录)。 |
User-agent: Disallow: /cgi-bin/.htm |
使用”$”限制访问url 仅允许访问以”.htm”为后缀的URL。 |
User-agent: Allow: /.htm$ Disallow: / |
禁止Baiduspider抓取网站上所有图片(仅允许抓取网页) | User-agent: Baiduspider Disallow: /.jpg$ Disallow: /.jpeg$ Disallow: /.gif$ Disallow: /.png$ Disallow: /*.bmp$ |
仅允许Baiduspider抓取网页和.gif格式图片 | User-agent: Baiduspider Allow: /.gif$ Disallow: /.jpg$ Disallow: /.jpeg$ Disallow: /.png$ Disallow: /*.bmp$ |
仅禁止Baiduspider抓取.jpg格式图片 | User-agent: Baiduspider Disallow: /*.jpg$ |
第二种方法:meta标签
如果您不想搜索引擎追踪此网页上的链接,且不传递链接的权重,在与加入:
<META NAME="Baiduspider" CONTENT="NOINDEX,Nofollow,noarchive"> |
就可以限制所有的搜索引擎建立你的网页快照。
必须了解搜索引起抓取页面相关的命令:
INDEX命令:告诉搜索引擎抓取这个页面
FOLLOW命令:告诉搜索引擎可以从这个页面上找到链接,然后继续访问抓取下去。
NOINDEX命令:告诉搜索引擎不允许抓取这个页面
NOFOLLOW命令:告诉搜索引擎不允许从此页找到链接、拒绝其继续访问。
根据以上的命令,我们就有了一下的四种组合
<META NAME="Robots" CONTENT="INDEX,FOLLOW">:可以抓取本页,而且可以顺着本页继续索引别的链接 |
(完)