SEO概念篇(三)

今天接着SEO概念篇的分享,欢迎大家阅读交流。
第八节:robots.txt
大家知道robots.txt是什么。
这里再详细介绍下:
搜索引擎用来爬取网页内容的工具我们称之为搜索引擎机器人。
搜索引擎机器人每次来到要抓取的网站,都会先访问这个网站根目录下的一个文件(robots.txt),如果不存在该文件,则搜索引擎机器人默认这个网站允许其全部抓取。
robots.txt是一个简单的纯文本文件(记事本文件),搜索引擎机器人通过robots.txt里的“说明”,理解该网站是否可以全部抓取或部分抓取。
如果你希望搜索引擎收录你网站的全部网页,则你可以不设置robots.txt或上传一个命名为robots.txt的空记事本到根本目录。
上传你的robots.txt后,通过 你的域名/robots.txt 可以正常访问。 注意,robots.txt的命名,都应该是小写。
访问如:/robots.txt
robots.txt文件的内容主要就是一个代码:Disallow:
注意,robots.txt文件中一般要包含至少一个Disallow:
如果都允许收录,你可以写一行Disallow:/search.html 这个文件(search.html)本来就不存在也没事。
格式如:
User-agent: *
Disallow: /search.html
Disallow: /index.php?
Disallow: /tempweb/
说明:
User-agent: * 星号说明,允许所有的搜索引擎来收录,包括百度、google、yahoo等。
Disallow: /search.html 说明不允许收录 /search.html 这个文件。
Disallow: /index.php? 说明不允许收录以index.php?为前缀的链接如:index.php?122.html、index.php?=12、index.php?/baidu等等
Disallow: /tempweb/ 说明不允许收录/tempweb/里的所有文件。但可以收录如:/tempwebtaim.html 的链接。
这里介绍的是常用的几个代码。
如果需要了解更多关于Disallow:的用法,请了解百度官方的介绍:http://www.baidu.com/search/robots.html
作为未来的SEO精英,你需要深入了解并充分利用robots.txt。
1、当你的网页已被收录,但想用robots.txt删除掉,一般需要1-2个月。
2、结合Google网站管理员工具,你可以马上删除被Google收录的网页。
【相关问题】
1、我发现有一个网站被K了,但它加了我的网站链接,我可以把它屏蔽吗?
被K的网站加你网站的链接,对你网站是没有太大影响的。通过robots.txt也没有办法屏蔽外部链接。
2、我的首页是index.html,我可以把index.php屏蔽吗?
理论上是没大问题,但为了安全起见,请不要屏蔽。不屏蔽是一定没事,但屏蔽了,可能存在隐患。
3、我不喜欢我网站的后台登陆地址被搜索引擎收录,同时也不希望放在robots.txt里被其他人知道。我怎么来屏蔽呢?
你可以在后台登陆地址的首页里,添加noindex标签。
4、如果我只是具体某一个页面不希望被收录,怎么办?
可以用robots.txt屏蔽这个页面,也可以用noindex标签在该页面里屏蔽这个页面。
5、有什么注意的经验?
⑴我们看到一些同学,在robots.txt里屏蔽了首页文件。比如:index.html、index.php、Default.php,原因是,他的首页可能是index.asp,但通过以上这几个也能访问首页,于是,他就想屏蔽了他们。这样的做法是不对的。首页,尽量都不要屏蔽。
⑵如果网站上存在一些比较大的文件、比如:打包文件、大图片文件、音乐文件、或电影文件、日志文件夹等等,可以屏蔽掉,因为这些文件可能让你的流量过大,占用过多宽带

第九节:域名和网站名
首先讲的经典概念是域名和网站名。这里不讲多余的知识,主要讲一些重点,你必须要知道的一些基本点。
这里面,域名是,www是下面的一个子域名。但人们的习惯是认为,带www和不带www指向同一个网站。
很多用户输入域名时喜欢不带www,比如taobao.com,所以,不带www的域名要记得解析到网站IP。
喜欢输入带www的用户,可能会把3个w,输入为2或4个。所以,和w的域名转发到也是必要的。
特别是具有大量用户的百度早已意识到这一点,试试看:wwww.baidu.com
zhidao.baidu.com zhidao是baidu.com下面的一个子域名。一般我们称之为二级域名。
从技术上讲,zhidao.baidu.com和www.baidu.com 可以认为是两个域名,他们可以是完全独立的两个网站,分别解析不同的IP。
在搜索引擎看来,如果一个域名有过多的二级域名(超过50个),除非这个域名已经受信任比如58.com,不然则可能部分或全部不收录。
/bbs 这是一个二级目录。
二级目录从属于一级目录。但并不是说二级目录的权重一定低于它所在的一级目录。假如论坛的外连多,而且更新快,将来在Google搜索seo可能SEOWHY论坛会排前面,而不是根目录。
Google公司反垃圾网站部的老大(以前是美国SEO界的老大),他的博客就是如此,根目录只有一个页面,博客放在二级目录。所以在Google英文搜索时,他的二级目录比首页排前面。(这位老大的博客地址:http://www.mattcutts.com 懂英文的同学,多看看会受益很多。)
如果二级目录的网站构成一个完整的网站,那么最好设置二级域名转发到二级目录。
如: 转发到/bbs
这样用户如果要登录论坛,。用户一般没有输入目录的习惯。
网站名
SEO中国
这是的网站名。
百度知道
这是zhidao.baidu.com的网站名。
淘宝网
这是www.taobao.com的网站名。
卓越网
这是www.amazon.cn的网站名。
这些似乎大家都知道,但这里要说明下。
以上是讲一些基本概念,那么关于域名和网站名,有什么需要注意的吗?

第十节:HTTP状态码
首先,我们要来讲一个新的为SEO操作目的而来的经典概念。
HTTP状态码:这是服务器和客户端之间交流信息的语言。
比如:
当客户端向服务器请求一个死链接时,服务器会返回“404”的信息。
“404”就是一个HTTP状态码,这个代码告诉客户端:“你请求的链接,我这边没有”。
再举个例子,“200”这个HTTP状态码代表的是,“你的请求,已经成功发送”。
如果客户端向服务器发送一个链接,服务器返回“200”。那么就说明,服务器正常返回了客户端需要的信息。
HTTP状态码有什么用?和SEO有什么关系?
因为网站日志往往会记录下HTTP状态码,所以通过查看网站日志里的HTTP状态码,我们可以清楚地看到网站服务器与客户端之间的信息交换情况。
这个客户端可以是用户浏览器,也可以是搜索引擎或其他爬取工具(如RSS)。
对于SEO来讲,HTTP状态码的最大意义就是,通过它们可以查看搜索引擎在你网站的爬取情况。
比如:
baiduspider爬取的痕迹记录是“404”,就说明,百度蜘蛛刚才访问了一个死链接。
Googlebot爬取记录是“200”,就说明,Google机器人刚才正常抓取了一个页面。
一般在网站日志中,最常见的HTTP状态码就是200和404。
其他常见的HTTP状态码以及其代表的含义有:
成功2×× 成功处理了请求的状态码。
200 服务器已成功处理了请求并提供了请求的网页。
204 服务器成功处理了请求,但没有返回任何内容。
重定向3×× 每次请求中使用重定向不要超过 5 次。
301 请求的网页已永久移动到新位置。当URLs发生变化时,使用301代码。搜索引擎索引中保存新的URL。
302 请求的网页临时移动到新位置。搜索引擎索引中保存原来的URL。
304 如果网页自请求者上次请求后没有更新,则用304代码告诉搜索引擎机器人,可节省带宽和开销。
客户端错误4×× 表示请求可能出错,妨碍了服务器的处理。
400 服务器不理解请求的语法。
403 服务器拒绝请求。
404 服务器找不到请求的网页。服务器上不存在的网页经常会返回此代码。
410 请求的资源永久删除后,服务器返回此响应。该代码与 404(未找到)代码相似,但在资源以前存在而现在不存在的情况下,有时用来替代404 代码。如果资源已永久删除,应当使用 301 指定资源的新位置。
服务器错误5×× 表示服务器在处理请求时发生内部错误。这些错误可能是服务器本身的错误,而不是请求出错。
500 服务器遇到错误,无法完成请求。
503 服务器目前无法使用(由于超载或停机维护)。通常,这只是暂时状态。
【其他疑问】
1、怎么看网站日志?
通过Ftp,在根目录下可以看到一个包含log的文件夹,这就是网站日志。下载、解压,里面的txt文件内容就是日志记录。
但也有一些服务器或虚拟主机没有提供log文件,请与主机商联系,或自己开通服务器的记录日志功能。
2、网站日志中怎么看搜索引擎机器人?
搜索引擎机器人:百度的“代号”是baiduspider、Google是Googlebot、Yahoo是Slurp。
在日志中搜索baiduspider,看到的那行信息就是百度蜘蛛与服务器的沟通信息。
3、看到了200 0 0 代表什么?
可以先简单记住,看到200就代表搜索引擎已经成功抓取了网页信息。
4、为什么“200”很多,但我的网站还没被收录,或收录很少?
如果和搜索引擎蜘蛛在一起的“200”很多,那收录是没问题的,但得等一次的更新期。除非被特殊处理,下次会展示很多出来。
5、怎么除了200之外的其他状态码很多?
请按以上的代码表对一下,然后分析为什么会出现这个情况。当然,如果只是个别则没事。
6、需要经常看吗?
只要你收录正常了,服务器没什么大问题,那一般没必要经常看。
7、推荐在线的HTTP状态码检测工具:
http://www.seobox.org/getheader.htm

第十一节:相关关键词
今天咱们的经典概念:相关关键词,是为提升以上三种关键词的排名服务的。
相关关键词:
1、搜索引擎针对用户搜索的关键词推荐的相关关键词;
2、在同类网站上,出现A关键词,往往会同时出现B关键词,那么A和B会被认为是相关的;
当你优化某关键词时——不管是目标关键词还是长尾关键词,在该关键词所在的页面,出现一些这个关键词的相关关键词是必要的。
的首页,要优化的是“SEO”这个目标关键词。在找SEO的相关关键词的时候:
1、百度或Google一下SEO,找到一些相关搜索;
2、到同行的网站上浏览一番,补充一些相关词汇。
做目标关键词时,往往竞争比较强,必须用上这个招术。但长尾词竞争性没那么强就可以偷懒一下。
如果按以下操作,则更好:
1、把相关关键词作为导航上的栏目链接锚文本。如:
2、可以把相关关键词加黑或加上链接指向其他页面。如:
3、我们说过,锚文本要多样性。在添加站内或站外锚文本时,可以适当采用相关关键词。
比如采用“SEO优化”为锚文本指向。
这些知识你或许第一次听到。但你要在激烈的竞争中胜出,你就懂得比其他人多。

第十二节:关键词密度
我们先来思考一个问题:
搜索引擎怎么知道一个网页上,那几个词是这个页面的关键词?
没错,你或许已经想到了:标题上的文字、关键词标签、锚文本。
以上三者中,前两个是基础,几乎所有人都知道。第三个锚文本,是你作为未来在SEO工作中必须知道的——这将是未来竞争的核心。
今天,我们要再一次来提升该关键词在网页上的地位。
那就是让这个关键词在网页上的密度稍微高于同行平均水平。(请注意,除非你水平很高了,不然尽量不要超过10%)
这个例子里的关键词是:“长尾关键词”。图中所示,出现的“长尾关键词”是那么自然的,却是有心的。
这个词可以长期稳居百度第一,依靠两个因素:
1、标题、关键词标签、站内锚文本;
2、突出的关键词密度+一个加黑的强调。
并没有站外链接等。
请注意:
1、并不是说关键词密度越高越好;
2、不用刻意得每次去查关键词密度,而是把这个观念留在你的头脑中,每次更新维护时,注意适当添加;
3、不用去理会有些站关键词密度很低怎么排名在你前面,或者某站关键词密度很高却不被K——人类怎么也无法理解一个懒汉为什么会中彩票?请不要用绝对的眼光来看待这个世界,包括搜索引擎。
4、重复一遍:在你觉得该出现关键词的时候,出现一次,没有必要那么刻意去在意。要点是,密度只要比正常的稍微高点即可。
5、如果你想要查关键词密度的工具:http://tool.alimama.com/keyword.php

讨论区