关于inurl:robots.txt的使用说明

对于标题有些朋友可能不明白是什么意思,这里我给大家介绍下inurl:robots.txt的作用。

首先,对于新站长要了解inurl:robots.txt的作用,我一定要先说下robots.txt,当然前期我也有写过关于robots.txt的文《利用robots提高页面的抓取率》大家可以参考一下。

总结性的说:robots.txt文件就是一个普通的文本文件,名称用小写,一般放在网站的根目录下。当一个搜索引擎机器人(有的叫搜索蜘蛛)访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,那么搜索机器人就沿着链接抓取。

细细的说:robots.txt的作用就是告诉搜索引擎哪些内容不要索引,一般为了实现如下目的而使用:

  1. 禁止搜索引擎索引系统文件,后台文件,模板文件,背景图片。这样做一方面可以防止搜索引擎收录很多无关内容,另外可以降低搜索引擎蜘蛛抓取网站时消耗的资源
  2. 禁止搜索引擎收录需要保密的文件,或者是隐私内容。不过值得注意的是,robots.txt只能告诉搜索引擎不收录这些内容,但是并不能防止这些内容被访问,如果是重要信息最好是设置密码。
  3. 网址规范化方面的应用。启用伪静态的网站,一般同时存在至少两套网址,一套是rewrite之后的静态地址,一套是原始的动态地址,如果不限制,搜索引擎可能会收录大量的重复内容。为了方式这种情况,可以将动态格式的地址禁止索引。

这里我所说的inurl:robots.txt主要是针对搜索引擎来使用的。大家不妨在g.cn和baidu.com中搜索一下试试,这里我搜索的结果是: (more…)

站内优化三部曲

一个网站想要有一个好的排名就必须做好站内、站外的优化,相信大家一定看过很多关于站内或者站外优化的方法、秘笈、诀窍什么 的,有资深的SEO人员写的,有站长们自己的经验分享或者说是实战经验,今天跟大家说说自己对站内优化的一些看法跟理解吧。
(more…)

利用robots提高页面的抓取率

众所周知,在网站优化中,robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的,什么是不可以被查看的,蜘蛛知道了这些以后,就可以将所有的精力放在被我们允许访问的页面上面,从而将有限的权重集中起来。

同时,我们还不能互略最重要的一点就是,robots.txt是搜索引擎访问网站要查看的第一个文件。明白了这一点,我们就有必要,也可能针对这一条做一些文章。

  • 将sitemap.xml写入robots文件

前面提到了,robots.txt文件是搜索引擎中访问网站要查看的第一个文件,那么,如果我们将sitemap.xml(网站地图)文件地址写入robots.txt文件里面,自然而然会被搜索引擎蜘蛛在第一时间发现,也增大了网站页面被快速抓取和收录的可能性。此种做法,对于新站作用明显,对于大站更具有积极和现实的作用。 (more…)