网址规范化做搜索引擎最喜欢的URL

网址规范化(URLcanonicalization)指的是搜索引擎挑选最合适的URL作为真正(规范化的)网址的过程。

为什么出现不规范网址,举例来说,下面这几个URL—般指的是同一个文件:

http://www.domainname.com

http:// domainname .com

http://www.domairmamexom/index.html

http://domainname.com/index.html

但是从技术上来讲,这几个URL都是不同的网址,搜索引擎也确实把它们当做不同的网址。虽然在绝大部分情况下,这些网址所返回的是相同的文件,也就是网站首页,但是从技术上说,主机完全可以对这几个网址疼回不同的内容。除了上面因为带与不带www造成的,以及结尾是否带index.htmi文件名造成的不规范网址,网址规范化问题还可能由于如下原因出现:

cms系统原因,使同一篇文章(也可以是产品、帖子等)可以通过几种不同的URL 访问。

URL静态化设置错误,同一篇文章中有多个静态化URL。

URL静态化后,静态和动态URL共存,都有链接,也都可以访问。

目录后带与不带斜杠。(http://www.domainname.com 和 http://www.domainnanie.com/ 是不同网址,但其实是一个页面)。

加密网址 http://www.domainnamet.com 和 https://www.domainname.com 同时存在,都可以访问。

URL中有端口号, http://www.domainname.com:80 和?http://www.domainname.com

跟踪代码,有的联署计划或广告服务在URL后面加跟踪代码,如http://www. domainname. com/?affid— 100?显示的都是首页内容。

网站出现多个不规范网址会给搜索引擎收录和排名带来很多麻烦。比如,网站首页应该是固定的,只有一个但很多站长在链接回首页时所使用的URL并不是唯一的,一会儿链接到 http://www.domainname.com —会儿是http://www.domainname.com/index.html。虽然不会给用户造成什么麻烦,因为这些网址其实是同一个文件,但是给搜索引擎造成了困惑,哪一个网址是真正的首页呢?哪一个网址应该被当做首页返回呢?如果网站上不同版本的网址同时出现,那么两个或更多版本的URL都可能被搜索引 擎收录,这就会造成复制内容。搜索引擎计算排名时必须找到所谓规范化的网址,也就是 搜索引擎认为的最合适的URL版本。

网址规范化造成几个问题:

cms系统在不同地方链接到不同的URL,分散了页面权重,不利于排名。

外部链接也可能指向不同URL,分散权重。

搜索引擎判断的规范化网址不是站长想要的那个网址。

如果网址规范化问题太严重,也可能影响收录。一个权重不很高的域名,能收录的总页面数和蜘蛛总爬行时间是有限的。搜索引擎把资源花在收录不规范的网址上,留下给独特内容的资源就减少了。

复制内容过多,搜索引擎可能认为有作弊嫌疑。

要解决URL规范化问题有很多方法,比如:

确保使用的CMS系统只产生规范化网址,无论是否有静态化。

所有内部链接保持统一,都指向规范化网址。以带与不带www为例,确定一个 版本为规范化网址,网站内链接统一使用这个版本。这样搜索引擎也就明白哪一个是站长希望的规范化网址。由于用户习惯,通常选择带www的版本为规范化网址。

在Google管理员工具中设置首选域。

使用301转向,把不规范化URL全部转向到规范化URL。下一节将深入讨论。

使用canonical标签。后面将深入讨论。

提交给搜索引擎的XML网站地图中全部使用规范化网址。

但这些方法都各有局限:

google管理员工具不适用于其他搜索引擎。

有的网站因为技术原因做不了301转向。

CMS系统经常不受自己控制。

内部链接自己可以控制,但外部链接不受控制。

所以,虽然有解决方法备选,但到目前为止网址规范化一直是困扰站长及搜索引擎的 —个问题。据估计,网上有10%?30%的URL是内容相同但URL不一样的不规范化网址。 为了万无一失,经常需要综合使用多个方法。

Seo先生博客发布,固定地址:https://seosir.cc/564.html?转载请注明。

讨论区

  • 奇异互动:

    嗯,事实上,我觉得还可以。

    2012 年 8 月 8 日 11:18

  • SeoSir.cc

    谢谢。

    2012 年 8 月 9 日 10:35