网站结构优化

2016-10-08 本文已影响344人武林大虾

本章将讲到一下几点：

搜索引擎友好的网站设计
避免蜘蛛陷阱
物理及链接结构
清晰导航
子域名和收录
禁止收录机制
nofollow的使用
URL设计
网址规范化
复制内容
绝对路径和相对路径
网站地图
内部链接及权重分配
CMS系统
404页面

网站内的优化大致两个部分，一是网站结构优化，二是页面上针对关键词的相关性优化。SEO人员往往比较看重页面优化，而忽视网站结构优化，其实网站结构优化比页面优化更重要，难度也更大。
从SEO的角度看，优化网站结构要达到以下几个目的：
1、用户体验。网站逻辑结构要清晰，让用户访问一个网站必须能不假思索的点击链接，找到自己想要的信息。
2、收录。网站页面的收录在很大程度上依靠良好的网站结构。理论上，清晰的网站结构很容易说清楚，只要策划好分类或频道，然后在分类下加入产品页面，整个网站自然形成树形结构。
3、权重分配。
4、锚文字。锚文字是排名算法很重要的一部分，网站内部链接锚文字是站长自己能控制的，所以是最主要的增强关键词相关性方法之一。

一、搜索引擎友好的网站设计

从搜索引擎蜘蛛的角度去看一个网页，蜘蛛在抓取、索引和排名的过程会遇到哪些问题呢？解决了这些问题的网站就是对搜索引擎友好的网站。

对搜索引擎友好的网站包括以下几个要素：

让搜索引擎能找到网页
让搜索引擎能抓取页面内容
让搜索引擎抓取页面后提炼有用的信息

二、避免蜘蛛陷阱

有一些网站设计技术对搜索引擎来说很不友好，不利于蜘蛛的爬行和抓取，这些技术被称为蜘蛛陷阱，我们应尽量避免这些陷阱。

2.1 flash

在网页的一小部分使用flash增强视觉效果是很正常的，这种小flash和图片是一样的，知识HTML代码中的很小一部分，页面上还有其他以文字为主的内容，所以对搜索引擎抓取和收录没有影响。

但是有的网站整个首页就是大的flash文件，这就构成了蜘蛛陷阱。这种网站整个就是一个flash的网站，可能视觉效果很精彩，可惜搜索引擎看不到，不能索引出文字信息，所以无从判断其相关性。

2.2 session ID

2.3 各种跳转

2.4 框架结构

2.5 动态URL

动态URL指的是数据库驱动的网站所生成的带有问好、等号及参数的网址，一般来说动态URL不利于搜索引擎蜘蛛爬取，应该尽量避免。

2.6 JavaScript链接

由于JavaScript可以创造出很多吸引人的视觉效果，有些网站喜欢用JavaScript脚本生成导航系统。这也是比较严重的蜘蛛陷阱之一，因为蜘蛛爬行JavaScript是非常困难的。

2.7 要求登录

有些网站内容放在需要用户登录之后才能看到的会员领域，这部分内容搜索引擎无法看到。蜘蛛不能填写用户名、密码，也不会注册。

2.8 强制使用cookies

有些网站为了实现某种功能，如记住用户登录信息、跟踪用户访问路径等，强制用户使用cookies，用户浏览器如果没有启用cookies，页面显示不正常。而搜索引擎就相当于一个禁用了cookies的浏览器，强制使用cookies只能造成搜索引擎蜘蛛无法正常访问。

三、物理及链接结构

网站结构有两方面的意思，一是物理结构，二是链接结构。

3.1 物理结构

物理结构指的是网站真实的目录及文件所在的位置决定的结构。一种是树形结构，一种是扁平式结构。

一般来说，金字塔结构逻辑清晰，更加适合网站搭建，而扁平式结构则适合非常小的网站。

3.2 链接结构

网站结构的第二个意义指的是链接结构，又称为逻辑结构，也就是指网站内部链接形成的链接的网路图。

比较合理的链接结构是树形结构。

四、清晰导航

网站系统导航应注意以下几点：

文字导航。尽量使用最普通的HTML文字导航，不要使用图片作为导航链接，更加不要使用JavaScript生成导航系统，也不要使用flash做导航。
点击距离及扁平化。良好的导航的目标之一就是使所有页面与首页点击距离越近越好。权重普通的网站，内页离首页不要超过四五次点击。
锚文字包含关键词。导航系统中的链接通常是分类页面获取内部链接的最主要来源，数量巨大，其锚文字对目标页面相关性有相当大的影响，因此分类名称应尽量使用目标关键词。
面包屑导航。面包屑导航对用户和搜索引擎来说，是判断页面在网站整个结构中的位置的最好方法。正确使用面包屑导航的网站通常都是架构比较清晰的网站。

避免页脚堆积。

五、子域名和目录

搜索引擎通常会把子域名当做一个基本独立的站点看待，也就是说www.domain.com和www.news.domain.com是两个独立的网站

六、禁止收录机制

有的时候，站长并不希望某些页面被抓取和收录，如收费内容、还在测试阶段的页面、复制内容页面等。要确保页面不被收录，需要使用robots文件或meta robots标签。

6.1 robots文件

搜索引擎蜘蛛访问网站时，会先查看网站根目录下有没有一个命名为robots.txt的纯文本文件，robots.txt用于指令搜索引擎禁止抓取网站某些内容或指定允许抓取某些内容。只有在需要禁止抓取某些内容时，写robots.txt才有意义。robots文件不存在或者空文件都意味着允许搜索引擎抓取所有的内容。

6.2 meta robots标签

meta robots标签是页面head部分meta标签的一种，用于指令搜索引擎禁止索引本页内容。最简单的meta robots标签格式为：
<meta name="robots"content="noindex,nofollow"，上面标签的意义是禁止所有搜索引擎索引本页，禁止跟踪本页上的链接。

七、nofollow的使用

nofollow代码形式为：<ahref="http://www.example/"rel="nofollow">这里是锚文字</a>，链接的nofollow属性只适用于本链接。nofollow最初的目的是减少垃圾链接对搜索引擎排名的影响，标签意义是告诉搜索引擎这个链接不是经过站长自己编辑的，所以这个链接不是一个信任投票。搜索引擎看到这个标签就不会跟踪爬行链接，也不传递链接权重和锚文字。

nofollow标签通常用在博客评论、论坛帖子、社会化网站、留言板等地方，因为在这些地方任何用户都可以自由留下链接，站长一般不知道这些链接指向何方，也不可能一一查证，所以是垃圾链接最长出现的地方。如果爬虫爬行这些链接会将网站权重分散给这些链接，对于这些链接就要使用nofollow。

八、分页链接静态化

为什么要静态化呢？
怎样静态化？

九、URL设计

URL越短越好
避免太多参数
目录层次尽量少
文件及目录名具描述性
URL包含关键词
字幕全部小写
一般不要使用连词符