并不是所有的SEO人员都能在工作中接触到URL优化。不少公司网站不需要新的URL规则,也不需要改版重新设计URL,就算设计URL结构,一般也都是SEO负责人来设计的,基层SEO人员并不会实际操作URL的设计和优化。但是为了美好的明天,或者如果自己拥有个人站试验,也要对这部分内容进行详细的了解。
首先SEO人员都知道的URL设计原则是越短越好参数越少越好,下面针对URL设计中的几个小问题进行讨论。
1.URL目录层级不要过多
有SEO基础的朋友应该都了解网站的物理结构和逻辑结构。一般认为物理结构上,网站URL涉及的目录层级越少越好,即网页在物理结构上越靠近首页越好(在浏览器中访问网页时,动态生成的URL上体现出来的结构和文件在服务器上存放的真实位置是没有什么区别的)。可以这样比喻,目录层级类似于家族辈分,层级越多辈分越低,不考虑其外链的情况下,从族长处分得的地位就越低,也就是页面权重越低。很多大型网站由于历史或者其他原因都有很复杂的物理层级结构,理论上这不仅会降低页面本身通过层级传递获得的“天生的权重”,也不利于网页链接在站内站外的引用。
比如以下几个老牌网站的URL结构,充满了“层次感”。
央视网:http:/military.cntv.cn/program/jsbd/20121101/107910.shtml河
北新闻网:http:/hebei.hebnews.cn/2012-11/04/content2921856.htm
合肥在线:http:/news.hf365.com/system/2012/10/18/012681457.shtml
当然这是强势媒体网站,使用的一般都是比较久远的CM文章系统。当初设计时就没有考虑到URL结构问题,只是管理人员按自己意愿进行设置的。比如这三个URL中的日期,有的占了一层,有的占了两层,有的占了三层,除了按日期归档的目录层级以外,还有不必要的系统目录。其实完全可以把文章都放到一个固定分类的一级目录中,如有必要进行日期归档的话,单独设计日期归档页面就可以了,没有必要把文章都放到多层日期归档目录的下面。
这些媒体网站有着自己的流量渠道,也可能不太注重或者还没有开始注重SEO。如果营销型网站也这样来设计URL结构,那么可能在最基础的部分就比竞争对手差了一些。
同样的网站权重、同样的内部链接设计、同样的外链质量和数量,但是你的目录层级多,家族辈分低,出门竞争的强度也会相对弱一些。
所以如果需要设计URL结构,目录层级应该控制一下。尽量使网站趋于扁平化,不要增加不必要的目录层级。现在常见的URL结构设计为:目录页和专题页URL的设计层级都尽可能少,甚至很多人会设计成全部使用一级目录;内容页一般放在一级目录下,甚至直接放在域名下,而不是放在分类目录下,目录页面往往只是对内容的归类列表页而已。
2.动态URL并不一定需要伪静态
在SEO诊断工作中,很多朋友喜欢先检查对方网站是不是动态URL,如果是动态URL,就会毫不思索地建议对方做伪静态。这其实是不合理的,有的网站所有URL中只会有一个动态参数,只是不同类型页面URL的动态参数不同而已。做不做伪静态都是可以的,搜索引擎都会正常抓取,也并不会因为做了伪静态而提升多少用户体验。很多博客系统就是这样,比如WordPress的URL结构。
文章页:http:www.pizirui.com/?p=591
目录页:htp:www.pizirui.com/?cat=3
单页面:http:/www.pizirui.com/?page_id=38
文章归档页面:http:www.pizirui.com/?m=201208
这样页面URL已经很简单了,就不需要进行伪静态了。除非有的朋友喜欢在URL中加几个关键词,需要进行伪静态的设置,否则完全没有必要做伪静态的工作。使用开源CM系统做伪静态一般都会有官方规则,如果是找建站公司做网站,那么就需要自己或重新找建站公司来写伪静态规则,虽然参数少的情况下对技术要求并不高,但也是需要技术支持的。没必要的工作何必浪费精力呢?
(3)对于站内参数复杂的网站,做伪静态还是有必要的
比如商城类、房产类网站都有很多交叉查询的参数,房产类网站的参数经常会有10个以上。其实如果站内参数设置没有问题也不必进行伪静态,不过大部分网站为了使得UL简洁、目录层级少,也会精心设计伪静态规则。有必要提醒的是超过10个参数的伪静态就不能通过简单映射完成了,还需要其他技术辅助。如上面提到的搜房网和中关村在线的链接结构。
以前之所以强调把动态URL转化成静态URL,是因为原先搜索引擎比较排斥动态URL的多参数。有很多网站设置了很多动态参数使得Spider永远抓不完这些页面,并且这些页面的内容可能是完全重复的,或者程序出现Bug产生无数动态链接使得Spider陷入死循环。现在,随着站长们SEO意识的提高,以及搜索引擎自身技术的提高,很少会出现把Spider引入无底洞的情况了。站长会经常检查网站是否有链接错误或无效URL产生,Spider也会对各种URL有选择性地抓取,所以以前因为动态URL而产生的Spider抓取问题,现在已经很少了。
另外,现在百度还会自动去除URL中的无效参数。千品网的大部分URL的末尾都加上了追踪用户行为的参数,并且原来千品网并没有设置robots文件,但是百度并没有收录这些带参数的URL,而收录了去除参数后的URL。当时由于千品网站内只有带参数的URL,反而真实的URL并没有直接链接。千品网的SEO负责人还和笔者进行了多次讨论,首先这些参数是运营人员要求加的,再者也疑惑为什么百度没有收录这些带参数的URL,反而收录了不带参数的URL,因为真实的URL当时在网络是不存在的。就此,笔者专门咨询了百度站长平台的运营人员,对方说明“百度会自动尝试去掉URL中的一些无效参数”。后来千品网使用Sitemap把真实URL提交到了百度,并且以防万一,配置了robots文件来禁止Spider抓取站内动态URL。
由此可见现在搜索引擎对动态L的处理还是比较智能的,所以如果网站内的动态参数不多,网站结构不复杂,完全没有必要纠结于做伪静态。当然必要的RL优化工作还是要做的,不可能完全寄希望于搜索引擎,如果搜索引擎什么问题都能解决,那么EO就没有存在的意义了。对于千品网的这类URL问题,也有不少网站百度没有处理好。如图5-2所示,不知道黄页88网首页为什么会有“?tob0odt6ll=WGmDSiNhRV”这样的参数,并且这个参数并不会改变网页内容,然而百度还是收录了,可见完全依靠百度自己判断URL中的参数是否有意义是不靠谱的。
很多拿万年历系统来举例的SEO人员,表示万年历系统会引导Spider无限地抓取下去,不仅造成站内资源浪费,也会浪费Spider的抓取。先不谈现在的搜索引擎会不会玩命地抓取这些URL,但作为站长和SEO人员,除非你用万年历系统来归类内容,否则在该功能上线之初就应该屏蔽搜索引擎对这些URL的抓取。
综上,如果是出于方便Spider抓取的目的,并不是所有动态URL的网站都需要静态化。如果你的网站系统庞大或者拥有和搜房、中关村在线类似的多参数URL,那么就最好静态化处理一下;如果你的网站系统很简单,只有一两个参数,就没有必要纠结伪静态问题。对于动态参数产生的页面重复问题,不是通过伪静态来解决的,而是需要通过技术去除或robots.txt文件及其他标签设置来解决的;对于由程序BUG生成无限参数造成蜘蛛陷阱的网站,使用伪静态也未必能解决问题,还是需要站长和EO人员时常分析网站日志,修补BUg。当然伪静态还可以把动态参数映射成关键词拼音或英文单词,甚至可以是中文关键词,有些网站出于这方面考虑,也可以推进网站URL的静态化。
SEO人员在进行网站优化方案写作时,最好根据网站实际情况进行伪静态建议。不要一旦发现对方是动态URL就提出做伪静态的建议,除非你认为这样做SEO方案显得你更加专业。3.URL中最好可以包含关键词
百度搜索“ipad3”的结果,百度把URL中的“ipad3”也进行了匹配加粗。所以在URL中布局关键词也可以增加网页和搜索词的相关度,很多大型网站甚至在URL中使用了大量中文。现在双拼和三拼域名炒得这么火,域名本身所带来的自然流量也是提升域名价值的一个重要因素。这种域名对在搜索引擎上优化对应关键词也有一定的促进作用。
4.中文URL问题
经百度官方人员确认,只要URL不是过长,百度对中文URL的收录就没有问题。如图5-4
所示为在百度中使用nur指令搜索URL中含有“联想笔记本”的网页。可见有不少网站在URL中使用了中文,并没有影响百度的收录。在L中使用中文关键词可以加强网页和关键词的匹配程度,不过现在有一些网站认为百度对中文L收录可能不够友好,而采用了拼音、英文单词或者拼音首字母形式的URL。
其实并没有必要担心中文URL的收录情况,而是需要考虑站内中文URL过多是不是会造成用户体验下降的情况。中文URL在大多数浏览器中是编码形式的,当用户复制引用时也会是长长的编码,在一定程度上降低了用户体验,也不便于分享和外链建设。并且如果是非知名的网站,中文URL过多,很容易被用户认为是垃圾站点,所以不宜对站内重要页面使用中文URL。
对于TAG聚合页面倒是不必担心中文URL问题,现在很多网站都使用TAG词库来作弊抢夺流量。可见搜索引擎对中文URL收录还是很友好的,不过因为网站没有内容而凑关键词,很多使用TAG词的网站都被百度惩罚了。
因此中文URL是可以使用的,但是要综合考虑,它可以增加页面和关键词的相关度,也会降低用户体验度,同时,如果自身内容不到位,还有可能被百度处理TAG词作弊时所误伤。
5.相对路径和绝对路径
在网站设计时,有不少朋友会考虑相对路径和绝对路径对EO的影响。其实不论使用相对路径还是使用绝对路径,搜索引擎都可以正常抓取。两种路径各自的优缺点如下。绝对路径优缺点:
(1)如果你的文章内容被转载或采集且对方比较懒,没有除去你加的链接,就会给你的网站增加一些外链。
(2)如果你的网站没有做301,并且你把带wWw和不带WWw的域名都解析到一个站点,可能会产生网址规范化问题。使用绝对路径,可以告诉搜索引擎你使用是哪个版本的URL,防止搜索引擎自动选择你不想让它收录的URL版本。比如你把domain.com和www.domain.com解析到了一个站点,你想让搜索引擎收录www.domain.com下的内容。但是你没有做或者不能做3o1,并且你使用的是相对路径的URL,那么搜索引擎从domain.com进入网站后,网站内所有的URL就都是以domain.com开头的了。最终搜索引擎很可能把你不想被收录的domain.om版本URL的网页作为主要网页参与排名,而www.domain.com版本的URL被搜索引擎雪藏了。
(3)如果你的网页移动位置,不会影响站内链接,因为是固定的链接。
(4)不利于测试,有规模的网站一般会有线下测试,如果网站内的链接不是动态参数,就会造成很多死链接,没办法进行测试。
(5)如果网页中链接过多,会加大网页的体积。
相对路径的优缺点正好和绝对路径相反。解释一下第(3)条,如果页面中使用了相对路径,当页面移动目录或者域名时就会出现死链接,这种问题常见于大型新闻CM系统。笔者曾经使用的TRS系统就有这个问题,比如:在目录/yule/下放置了文件1.html;
1.html中用相对链接指向了同目录下的2.html;
编辑突然发现1.html放错了目录,应该放到目录/news/下;
如果此时只是机械地把1.html转放到目录/news/下,那么1.html中的链接会自动改变指向目录/news/下的2.html;
如果目录/news/下没有2.html,就会产生404错误;
即使目录/news/下有同文件名的2.html,两个目录下2.html的内容也是不同的,也会造
成链接指向混乱。
推荐网站使用绝对路径,现在都是动态语言开发网站,完全可以避免测试时的问题。至于加大网页体积的问题,一是普通网站都不会在同一个页面上放太多链接;二是如网页其他方面精简到位,正常的网页体积都不会太大,都可以被搜索引擎完整抓取。所以相对来说绝对路径更好一些。
6.字母小写且不要用特殊符号
URL中的字母全部小写,便于人工输入,不会因为大小写掺杂产生错误。并且Linux系统服务器是区分大小写字母的。在一些流量统计工具中也会把有大小写问题的同一个URL当成两个URL来统计,这增加了流量分析的难度。如无必要,不要在URL中使用特殊符号,否则可能会出现不可预知的错误。并且在站外引用链接时,如果URL中包特殊符号,很可能导致被引用的链接解析不完整。有很多朋友发现百度同时收录了网站URL最后带“”与不带“/”的两种形式。如图5-5
7.目录最后的斜杠问题
两个URL的快照并不同,可见百度把两个URL当成了不同的页面,曾经一度出现过两种URL共同存在某个关键词的搜索结果首页。
且不论百度会不会把这两种URL当成重复页面对待,站长和SEO人员自己首先就应该先把URL进行统一。如果是目录那么就用正常的目录形式,如果是文件那么就用文件形式。当用户或Spideri访问www.domain.omabc时,部分服务器发现网站根目录下没有abc这个文件,那么就会报404错误,也可能会自动301或302跳转到www domain.om/bc/上,也有部分服务器是两个URL都可以正常访问的。不论服务器使用哪种处理方式,站长和SEO人员最好都要保持站内URL的统一,不至于内链和外链都被分散到两种URL上去。因为百度指不定会在排名中使用哪个版本的URL。另外,目录URL和目录首页文件的URL也看同样的间题,同样需要网址规范化,做好301及站内只使用一个版本的URL,例如www.domain.com/abc/和www.domain.com/abc/index.html.
《百度搜索引擎优化指南》中对于网站URL的建议如下。
(1)网站中同一网页只对应一个URL,如果网站上多种URL都能访问同样的内容会有如下危险:
·搜索引擎会选一种URL为标准,可能会和正版不同;
·用户可能为同一网页的不同URL做推荐,多种URL形式分散了该网页的权重。如果你的网站上已经存在多种URL形式,建议按以下方式处理:
·在系统中只使用正常形式URL,不让用户接触到非正常形式的URL;
·不把Session ID、统计代码等不必要的内容放在URL中;
·不同形式的URL,301永久跳转到正常形式;
·防止用户输错而启用的备用域名,301永久跳转到主域名;
·使用robots.xt禁止BaiduSpider抓取你不想向用户展现的形式。
(2)让用户能从URL判断出网页内容以及网站结构信息,并可以预测将要看到的内容
以百度空间为例,URL结构中加入了用户ID信息,用户在看到空间的URL时,可以方便的判断是谁的空间。URL结构中还加入了Blog、Album等内容信息,用户可以通过URL判断将要看到的内容是一篇博客,还是一个相册。
(3)URL尽量短。
长长的URL不仅不美观,用户还很难从中获取额外有用的信息。另一方面,短URL还有助于减小页面体积,加快网页打开速度,提升用户体验http://t1eba.baidu.con/f?kw=百度例子中的第一个URL,会让用户望而却步,第二个URL,用户可以很轻松地判断是贴吧中关于百度的吧。
(4)正常的动态URL对搜索引擎没有影响。
URL是动态的还是静态的对搜索引擎没有影响,但建议尽量减少动态URL中包含的变量参数,这样既有助于减少URL长度,也可以减少让搜索引擎掉入黑洞的风险
(5)不添加不能被系统自动识别为URL组成部分的字符。
上面例子中,URL中加入了“;”、“,”等字符,用户在通过论坛、即时通信工具等渠道推荐这些RL时,不能被自动识别为链接,增加了用户访问这些网页的困难度。
(6)利用百度提供的URL优化工具检查。
百度站长平台提供了URL优化工具,可以帮助检查URL对搜索引擎的友好程度并提出修改建议。
还没有评论呢,快来抢沙发~