网站结构优化
本章将讲到一下几点:
- 搜索引擎友好的网站设计
- 避免蜘蛛陷阱
- 物理及链接结构
- 清晰导航
- 子域名和收录
- 禁止收录机制
- nofollow的使用
- URL设计
- 网址规范化
- 复制内容
- 绝对路径和相对路径
- 网站地图
- 内部链接及权重分配
- CMS系统
- 404页面
网站内的优化大致两个部分,一是网站结构优化,二是页面上针对关键词的相关性优化。SEO人员往往比较看重页面优化,而忽视网站结构优化,其实网站结构优化比页面优化更重要,难度也更大。
从SEO的角度看,优化网站结构要达到以下几个目的:
1、用户体验。网站逻辑结构要清晰,让用户访问一个网站必须能不假思索的点击链接,找到自己想要的信息。
2、收录。网站页面的收录在很大程度上依靠良好的网站结构。理论上,清晰的网站结构很容易说清楚,只要策划好分类或频道,然后在分类下加入产品页面,整个网站自然形成树形结构。
3、权重分配。
4、锚文字。锚文字是排名算法很重要的一部分,网站内部链接锚文字是站长自己能控制的,所以是最主要的增强关键词相关性方法之一。
一、搜索引擎友好的网站设计
从搜索引擎蜘蛛的角度去看一个网页,蜘蛛在抓取、索引和排名的过程会遇到哪些问题呢?解决了这些问题的网站就是对搜索引擎友好的网站。
对搜索引擎友好的网站包括以下几个要素:
- 让搜索引擎能找到网页
- 让搜索引擎能抓取页面内容
- 让搜索引擎抓取页面后提炼有用的信息
二、避免蜘蛛陷阱
有一些网站设计技术对搜索引擎来说很不友好,不利于蜘蛛的爬行和抓取,这些技术被称为蜘蛛陷阱,我们应尽量避免这些陷阱。
2.1 flash
在网页的一小部分使用flash增强视觉效果是很正常的,这种小flash和图片是一样的,知识HTML代码中的很小一部分,页面上还有其他以文字为主的内容,所以对搜索引擎抓取和收录没有影响。
但是有的网站整个首页就是大的flash文件,这就构成了蜘蛛陷阱。这种网站整个就是一个flash的网站,可能视觉效果很精彩,可惜搜索引擎看不到,不能索引出文字信息,所以无从判断其相关性。
2.2 session ID
2.3 各种跳转
2.4 框架结构
2.5 动态URL
动态URL指的是数据库驱动的网站所生成的带有问好、等号及参数的网址,一般来说动态URL不利于搜索引擎蜘蛛爬取,应该尽量避免。
2.6 JavaScript链接
由于JavaScript可以创造出很多吸引人的视觉效果,有些网站喜欢用JavaScript脚本生成导航系统。这也是比较严重的蜘蛛陷阱之一,因为蜘蛛爬行JavaScript是非常困难的。
2.7 要求登录
有些网站内容放在需要用户登录之后才能看到的会员领域,这部分内容搜索引擎无法看到。蜘蛛不能填写用户名、密码,也不会注册。
2.8 强制使用cookies
有些网站为了实现某种功能,如记住用户登录信息、跟踪用户访问路径等,强制用户使用cookies,用户浏览器如果没有启用cookies,页面显示不正常。而搜索引擎就相当于一个禁用了cookies的浏览器,强制使用cookies只能造成搜索引擎蜘蛛无法正常访问。
三、物理及链接结构
网站结构有两方面的意思,一是物理结构,二是链接结构。
3.1 物理结构
物理结构指的是网站真实的目录及文件所在的位置决定的结构。一种是树形结构,一种是扁平式结构。
一般来说,金字塔结构逻辑清晰,更加适合网站搭建,而扁平式结构则适合非常小的网站。
3.2 链接结构
网站结构的第二个意义指的是链接结构,又称为逻辑结构,也就是指网站内部链接形成的链接的网路图。
比较合理的链接结构是树形结构。
四、清晰导航
网站系统导航应注意以下几点:
- 文字导航。尽量使用最普通的HTML文字导航,不要使用图片作为导航链接,更加不要使用JavaScript生成导航系统,也不要使用flash做导航。
- 点击距离及扁平化。良好的导航的目标之一就是使所有页面与首页点击距离越近越好。权重普通的网站,内页离首页不要超过四五次点击。
- 锚文字包含关键词。导航系统中的链接通常是分类页面获取内部链接的最主要来源,数量巨大,其锚文字对目标页面相关性有相当大的影响,因此分类名称应尽量使用目标关键词。
- 面包屑导航。面包屑导航对用户和搜索引擎来说,是判断页面在网站整个结构中的位置的最好方法。正确使用面包屑导航的网站通常都是架构比较清晰的网站。
- 避免页脚堆积。
五、子域名和目录
搜索引擎通常会把子域名当做一个基本独立的站点看待,也就是说www.domain.com和www.news.domain.com是两个独立的网站
六、禁止收录机制
有的时候,站长并不希望某些页面被抓取和收录,如收费内容、还在测试阶段的页面、复制内容页面等。要确保页面不被收录,需要使用robots文件或meta robots标签。
6.1 robots文件
搜索引擎蜘蛛访问网站时,会先查看网站根目录下有没有一个命名为robots.txt的纯文本文件,robots.txt用于指令搜索引擎禁止抓取网站某些内容或指定允许抓取某些内容。只有在需要禁止抓取某些内容时,写robots.txt才有意义。robots文件不存在或者空文件都意味着允许搜索引擎抓取所有的内容。
6.2 meta robots标签
meta robots标签是页面head部分meta标签的一种,用于指令搜索引擎禁止索引本页内容。最简单的meta robots标签格式为:
<meta name="robots"content="noindex,nofollow",上面标签的意义是禁止所有搜索引擎索引本页,禁止跟踪本页上的链接。
七、nofollow的使用
nofollow代码形式为:<ahref="http://www.example/"rel="nofollow">这里是锚文字</a>,链接的nofollow属性只适用于本链接。nofollow最初的目的是减少垃圾链接对搜索引擎排名的影响,标签意义是告诉搜索引擎这个链接不是经过站长自己编辑的,所以这个链接不是一个信任投票。搜索引擎看到这个标签就不会跟踪爬行链接,也不传递链接权重和锚文字。
nofollow标签通常用在博客评论、论坛帖子、社会化网站、留言板等地方,因为在这些地方任何用户都可以自由留下链接,站长一般不知道这些链接指向何方,也不可能一一查证,所以是垃圾链接最长出现的地方。如果爬虫爬行这些链接会将网站权重分散给这些链接,对于这些链接就要使用nofollow。
八、分页链接静态化
为什么要静态化呢?
怎样静态化?
九、URL设计
- URL越短越好
- 避免太多参数
- 目录层次尽量少
- 文件及目录名具描述性
- URL包含关键词
- 字幕全部小写
- 一般不要使用连词符