一. 数据结构与算法简介
本章部分内容整理于http://www.cnblogs.com/wsnb/p/5172431.html
1. 数据结构
数据结构是一门研究非数值计算的程序设计问题中的操作对象,以及它们之间的关系和操作等相关问题的学科。
简单地说, 程序设计 = 数据结构 + 算法。
数据结构,顾名思义,就是数据之间的结构关系,或者理解成数据元素相互之间存在的一种或多种特定关系的集合。当然这些概念都是大学喜欢考的,我们没必要纠结于这个概念,有自己恰当的、并且可以为他人所接受的解释就可以。
数据结构中的结构,也就是我们研究的主体对象。数据结构中我们很少研究数据,因为数据在内存中的表现形式对于我们都是一样的,也就是二进制。传统上,我们把数据结构分为逻辑结构和物理结构。
1. 1 数据
数据类型:是指一组性质相同的值的集合及定义在此集合上的一些操作的总称。例如很多编程语言的整型,浮点型,字符型这些指的就是数据类型。
当年那些设计计算机语言的人,为什么会考虑到数据类型呢?比如,大家都需要住房子,也都希望房子越大越好。但显然,没有多少钱的话考虑房子是没啥意义的。于是商品房就出现了各种各样的房型,有别墅的,有错层的,有单间的,甚至在北京还出现了胶囊公寓——只有两平方米的房间。这样子就满足了大家的不同需求。
同样,在计算机中,内存也不是无限大的,你要计算入1+1=2这样的整型数字的加减乘除运算,显然不需要开辟很大的内存空间。而如果要计算1.23456789+2.987654321这样带大量小数的,就需要开辟比较大的空间才存放的下。于是计算机的研究者们就考虑,要对数据类型进行分类,分出多种数据类型来适合各种不同的计算条件差异。
例如在C语言中,按照取值的不同,数据类型可以分为:
(1) 原子类型
不可以再分解的基本类型,例如整型、浮点型、字符型等。
(2) 结构类型
由若干个类型组合而成,是可以再分解的,例如整型数组是由若干整型数据组成的。
1.2 结构
指反映数据元素之间的逻辑关系的数据结构,其中的逻辑关系是指数据元素之间的前后关系,而与他们在计算机中的存储位置无关。
1.2.1 逻辑结构
(1) 集合结构
集合结构中的数据元素同属于一个集合,他们之间是并列的关系,除此之外没有其他关系。如下图,可以很好的表示集合结构中的元素之间的关系:
(2) 线性结构
线性结构中的元素存在一对一的相互关系。如下图,可以很好的表示线性结构中的元素之间的关系:
(3) 树形结构
树形结构中的元素存在一对多的相互关系。如下图,可以很好的表示树形结构中的元素之间的关系:
(4) 图形结构
图形结构中的元素存在多对多的相互关系。如下图,可以很好的表示图形结构中的元素之间的关系:
1.2.2 物理结构
物理结构又叫存储结构,指数据的逻辑结构在计算机存储空间的存放形式。通俗的讲,物理结构研究的是数据在存储器中存放的形式。 存储器主要针对于内存而言,像硬盘、软盘、光盘等外部存储器的数据组织通常用文件结构来描述。
数据在内存中的存储结构,也就是物理结构,分为两种:顺序存储结构和链式存储结构。
(1) 顺序存储结构
顺序存储结构:是把数据元素存放在地址连续的存储单元里,其数据间的逻辑关系和物理关系是一致的。数组就是顺序存储结构的典型代表。其在内存中的存储形式类似于下图:
(2) 链式存储结构
链式存储结构:是把数据元素存放在内存中的任意存储单元里,也就是可以把数据存放在内存的各个位置。这些数据在内存中的地址可以是连续的,也可以是不连续的。
和顺序存储结构不同的是,链式存储结构的数据元素之间是通过指针来连接的,我们可以通使用指针来找到某个数据元素的位置,然后对这个数据元素进行一些操作。如下图,可以帮助我们理解链式存储结构:
打个比方说一下顺序存储结构和链式存储结构的区别:
比如去银行取钱,顺序存储结构就相当于,所有的客户按照先来后到的顺序有序的的坐在大厅的椅子上(注意:是有顺序的坐着哦)。
而链式存储结构相当于,所有的客户只要一到银行,大堂经理就给他们每人一个号码,然后他们可以随便坐在哪个椅子上(随便坐,不需要按照什么顺序坐),只需要等待工作人员广播叫号即可。
而每个客户手里的号码就相当于指针,当前的指针指向下一个存储空间,这样,所有不连续的空间就可以被有顺序的按照线性连接在一起了。
2. 算法
算法是指解题方案的准确而完整的描述,是一系列解决问题的清晰指令,算法代表着用系统的方法描述解决问题的策略机制。
在我看来,算法就是求解一个问题所需要的步骤所形成的解决方法,每一步包括一个或者多个操作。无论是现实生活中还是计算机中,解决同一个问题的方法可能有很多种,在这N多种算法中,肯定存在一个执行效率最快的方法,那么这个方法就是最优算法。
2.1 算法的特点
算法具有五个基本特征:输入、输出、有穷性、确定性和可行性。
(1) 输入
一个算法具有零个或者多个输出。以刻画运算对象的初始情况,所谓0个输入是指算法本身定出了初始条件。后面一句话翻译过来就是,如果一个算法本身给出了初始条件,那么可以没有输出。比如,打印一句话:NSLog(@"你最牛逼!");
(2) 输出
算法至少有一个输出。也就是说,算法一定要有输出。输出的形式可以是打印,也可以使返回一个值或者多个值等。也可以是显示某些提示。
(3) 有穷性
算法的执行步骤是有限的,算法的执行时间也是有限的。
(4) 确定性
算法的每个步骤都有确定的含义,不会出现二义性。
(5) 可行性
算法是可用的,也就是能够解决当前问题。
当然,回过头来一看,这五个特性都是废话,并且依稀记得大学老师都教过。所以,我们不用浪费脑力在这些不必要的概念上,因为大学早已离我远去,考试什么的跟我也没有一毛钱关系,只要知道这么回事就好。
2.2 衡量算法的指标
算法是指解题方案的准确而完整的描述,是一系列解决问题的清晰指令,算法代表着用系统的方法描述解决问题的策略机制。对于同一个问题的解决,可能会存在着不同的算法,为了衡量一个算法的优劣,提出了空间复杂度与时间复杂度这两个概念。
2.2.1 时间复杂度
算法时间复杂度的定义:在进行算法分析时,语句总的执行次数T(n)是关于问题规模n的函数,进而分析T(n)随n的变化情况并确定T(n)的数量级。
算法的时间复杂度,也就是算法的时间量度,记作:T(n)= O(f(n))。
它表示随问题规模n的增大,算法执行时间的增长率和f(n)的增长率相同,称作算法的渐近时间复杂度,简称为时间复杂度。其中f(n)是问题规模n的某个函数。
(1) 时间复杂度的计算方法
1.用常数1取代运行时间中的所有加法常数。
2.在修改后的运行次数函数中,只保留最高阶项。
3.如果最高阶项存在且不是1,则去除与这个项相乘的常数。
最后,得到的最后结果就是时间复杂度。
(2) 常见的时间复杂度
按数量级递增排列,常见的时间复杂度有:
常数阶O(1),对数阶O( log n ),线性阶O(n),线性对数阶O(nlog2n),平方阶O(n^2),立方阶O(n^3),...,k次方阶O(n^k),指数阶O(2^n)。随着问题规模n的不断增大,上述时间复杂度不断增大,算法的执行效率越低。
也就是:常用的时间复杂度所耗费的时间从小到大依次是:O(1) < O(logn) < (n) < O(nlogn) < O(n^2) < O(n^3) < O(2^n) < O(n!) < O(n^n)
2.2.2 空间复杂度
算法的空间复杂度通过计算算法所需的存储空间实现,算法的空间复杂度的计算公式记作:S(n)=O(f(n)),其中,n为问题的规模,f(n)为语句关于n所占存储空间的函数。
在程序开发中,我们所指的复杂度不做特别说明的情况下,就是指时间复杂度。现在的硬件发展速度之快使得我们完全可以不用考虑算法所占的内存,通常都是用空间 换取时间。加之算法的空间复杂度比较难算,所以,无论是在考试中还是在项目开发中,我们都侧重于时间复杂度。所以,空间复杂度,略过。