设置搜索引擎收录与不收录的两种方法

作者 拓荒 日期 2017-10-26
SEO

在一些情况下为了SEO我们要设置网站的某些页面不被搜索引擎收录,例如我们的后台登陆页面等等,所以通过网络查阅现整理了两种方法,一种是通过网站根目录的Robots.txt文件设置,另一种是在html页面的都不设置meta标签的方法。

第一种方法:Robots.txt

搜索引擎使用spider程序自动访问互联网上的网页并获取网页信息。spider在访问一个网站时,会首先会检查该网站的根域下是否有一个叫做 robots.txt的纯文本文件,这个文件用于指定spider在您网站上的抓取范围。您可以在您的网站中创建一个robots.txt,在文件中声明 该网站中不想被搜索引擎收录的部分或者指定搜索引擎只收录特定的部分。

请注意,仅当您的网站包含不希望被搜索引擎收录的内容时,才需要使用robots.txt文件。如果您希望搜索引擎收录网站上所有内容,请勿建立robots.txt文件。

作用 方法
禁止所有搜索引擎访问网站的任何部分 User-agent: *
Disallow: /
允许所有的robot访问 User-agent: *
Allow: /
仅禁止Baiduspider访问您的网站 User-agent:
Baiduspider
Disallow: /
仅允许Baiduspider访问您的网站 User-agent:
Baiduspider
Allow: /
User-agent: *
Disallow: /
仅允许Baiduspider以及Googlebot访问 User-agent:
Baiduspider
Allow: /
User-agent:
Googlebot
Allow: /
User-agent:
* Disallow: /
禁止spider访问特定目录
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/
允许访问特定目录中的部分url User-agent: *
Allow: /cgi-bin/see
Allow: /tmp/hi
Allow:/~joe/look
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/
使用”*”限制访问url
禁止访问/cgi-bin/目录下的所有以”.htm”为后缀的URL(包含子目录)。
User-agent:
Disallow: /cgi-bin/
.htm
使用”$”限制访问url
仅允许访问以”.htm”为后缀的URL。
User-agent:
Allow: /
.htm$
Disallow: /
禁止Baiduspider抓取网站上所有图片(仅允许抓取网页) User-agent:
Baiduspider
Disallow: /.jpg$
Disallow: /
.jpeg$
Disallow: /.gif$
Disallow: /
.png$
Disallow: /*.bmp$
仅允许Baiduspider抓取网页和.gif格式图片 User-agent:
Baiduspider
Allow: /.gif$
Disallow: /
.jpg$
Disallow: /.jpeg$
Disallow: /
.png$
Disallow: /*.bmp$
仅禁止Baiduspider抓取.jpg格式图片 User-agent:
Baiduspider
Disallow: /*.jpg$

第二种方法:meta标签

如果您不想搜索引擎追踪此网页上的链接,且不传递链接的权重,在与加入:

<META NAME="Baiduspider" CONTENT="NOINDEX,Nofollow,noarchive">

就可以限制所有的搜索引擎建立你的网页快照。

必须了解搜索引起抓取页面相关的命令:
INDEX命令:告诉搜索引擎抓取这个页面
FOLLOW命令:告诉搜索引擎可以从这个页面上找到链接,然后继续访问抓取下去。
NOINDEX命令:告诉搜索引擎不允许抓取这个页面
NOFOLLOW命令:告诉搜索引擎不允许从此页找到链接、拒绝其继续访问。

根据以上的命令,我们就有了一下的四种组合

<META NAME="Robots" CONTENT="INDEX,FOLLOW">:可以抓取本页,而且可以顺着本页继续索引别的链接 
<META NAME="ROBOTS" CONTENT="NOINDEX,FOLLOW">:不许抓取本页,但是可以顺着本页抓取索引别的链接
<META NAME="ROBOTS" CONTENT="INDEX,NOFOLLOW">:可以抓取本页,但是不许顺着本页抓取索引别的链接
<META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">:不许抓取本页,也不许顺着本页抓取索引别的链接。
同时在加上禁止显示快照的代码<metaname="robots"content="noarchive">就OK

(完)