有没有想过,如果我们某个站点不让百度和google收录,那怎么办?
搜索引擎已经和我们达成一个约定,如果我们按约定那样做了,它们就不会去收录。这个写约定的的文件命名为:robots.txt。robots.txt是一个最简单的.txt文件,用以告诉搜索引擎哪些网页可以收录,哪些不允许收录。
如果你的站点对所有搜索引擎公开,则不用做这个文件或者robots.txt为空就行。
robots.txt文件的格式:
Disallow:定义禁止搜索引擎收录的地址
Allow:定义允许搜索引擎收录的地址
一般情况下,robots.txt里只写着两个函数:User-agent和Disallow,至少要有一个Disallow函数,如果都允许收录,则写:Disallow:,如果都不允许收录,则写:Disallow:/(注:只是差一个斜杆)。在文件中只写出要屏蔽的蜘蛛就可以了,允许爬行的蜘蛛就不用写出来了。并且,有几个禁止,就得有几个Disallow函数,要分行描述。
User-agent:*(注:*是一个通配符,在这里指所有的搜索引擎种类)
Disallow:/
User-agent:BadBot
Disallow:/
User-agent:Baiduspider
allow:/
User-agent:
Allow:/目录1/目录2(容许访问目录2中的网页)
Allow:/目录3/目录4(容许访问目录4中的网页)
Allow:/目录5/目录6(容许访问目录6中的网页)
Disallow:/目录1/
Disallow:/目录3/
Disallow:/目录5/
特别提示:robots里面内容的大小写不可更改,Disallow后面的冒号必须为英文状态的。
robots.txt文件必须放在网站的根目录下,必须命名为:robots.txt,都是小写,robot后面加"s"。放在子目录的robots.txt文件搜索引擎不能爬取到,所以不会起任何作用。
例子:
http://www.cncn.com/robots.txt
http://www.cncn.com/bbs/robots.txt
4.生效时间
robots.txt文件一般生效时间为7-15天,即1-2周。如果新网站源码中包含robots.txt文件,那样蜘蛛进行爬行时就会生效,如果是后来添加的,那样蜘蛛需要对数据进行更新,时间一般在7-15天。
5.关于robots.txt一般站长需要注意以下几点:
1.)网站上经常存在这种情况:不同的链接指向相似的网页内容。这不符合SEO上讲的“网页内容互异性原则”。采用robots.txt文件可以屏蔽掉次要的链接。
2.)网站改版或URL重写优化时原来不符合搜索引擎友好的链接需要全部屏蔽掉。采用robots.txt文件删除旧的链接符合搜索引擎友好。
4.)网站中的脚本程序、样式表等文件即使被蜘蛛收录,也不会增加网站的收录率,还只会占用服务器存储空间。因此必须在robots.txt文件里设置不要让搜索蜘蛛索引脚本程序、样式表等文件。
5.)搜索蜘蛛抓取网页太浪费服务器资源,在robots.txt文件中设置所有的搜索蜘蛛都不能抓取全部的网页。如果这样的话,会导致整个网站不能被搜索引擎收录。
按照夫唯老师以下十个方法能够让网站快速收录:
2.保持原创度和内容长度
3.站上添加最新发布模块/最新更新模块
4.已收录页面锚文本给未收录页面
5.绑定熊掌号(针对百度)
7.sitemap提交
8.未收录页面的链接展示在首页一段时间
9.站外给未收录页面引蜘蛛
10.抓取诊断(针对百度)
主要意思是:网站关键词设置不要太宽泛。
成熟的搜索引擎网站都没有固定的搜索算法与规则,确认的网站关键词一定是和你的站点高度有关的,况且网站关键词的搜索频率要高。如果关键词设置过于宽泛,搜索引擎无法判断该站点的有效信息到底是指什么,那么网站权重不会高,严重的还会被搜索引擎判定为作弊,对该站点做出降权的惩罚动作