关于inurl:robots.txt的使用说明

对于标题有些朋友可能不明白是什么意思,这里我给大家介绍下inurl:robots.txt的作用。

首先,对于新站长要了解inurl:robots.txt的作用,我一定要先说下robots.txt,当然前期我也有写过关于robots.txt的文《利用robots提高页面的抓取率》大家可以参考一下。

总结性的说:robots.txt文件就是一个普通的文本文件,名称用小写,一般放在网站的根目录下。当一个搜索引擎机器人(有的叫搜索蜘蛛)访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,那么搜索机器人就沿着链接抓取。

细细的说:robots.txt的作用就是告诉搜索引擎哪些内容不要索引,一般为了实现如下目的而使用:

  1. 禁止搜索引擎索引系统文件,后台文件,模板文件,背景图片。这样做一方面可以防止搜索引擎收录很多无关内容,另外可以降低搜索引擎蜘蛛抓取网站时消耗的资源
  2. 禁止搜索引擎收录需要保密的文件,或者是隐私内容。不过值得注意的是,robots.txt只能告诉搜索引擎不收录这些内容,但是并不能防止这些内容被访问,如果是重要信息最好是设置密码。
  3. 网址规范化方面的应用。启用伪静态的网站,一般同时存在至少两套网址,一套是rewrite之后的静态地址,一套是原始的动态地址,如果不限制,搜索引擎可能会收录大量的重复内容。为了方式这种情况,可以将动态格式的地址禁止索引。

这里我所说的inurl:robots.txt主要是针对搜索引擎来使用的。大家不妨在g.cn和baidu.com中搜索一下试试,这里我搜索的结果是:

易知,inurl:robots.txt抓取的全是网站的robots.txt文件,这个的好处就是很容易的叫我们了解到各大站点的具体robots.txt设置,这可以使我们针对于robots.txt更加的了解与熟悉使用。希望本文可以给各位朋友带去帮助。

Seo先生博客首发,本文固定链接:?https://seosir.cc/364.html 转载请注明。

 

讨论区