数据结构学习记录--基本概念(一)
前言
该学习参考的书籍为《大话数据结构》,需要一定的数学底子和编程思维,一个真正的程序员怎么能不懂数据结构和算法,既然自己的发展方向是技术,那就只能坚持!
数据结构的基本概念
-
数据结构是相互间存在一种或多种特定关系得数据元素的集合
-
数据结构是一门研究非数值计算的程序设计问题中的操作对象,以及它们之间的关系和操作等相关问题的学科
-
数据是描述客观事物的符号,是计算机中可以操作的对象,是能被计算机识别,并输入给计算机处理的符号集合
-
数据元素是组成数据的、有一定意义的基本单位,在计算机中通常作为整体处理,也被称为记录,一个数据元素可以由若干个数据项组成,数据项是数据不可分割的最小单位
-
数据对象是性质相同的数据元素的集合,是数据的子集
-
结构是指各个组成部分相互搭配和排列的方式,简单理解就是关系,在现实世界中,不同的数据元素之间不是独立的,而是存在特定的关系,我们将这些关系称为结构
数据结构的分类
按照视点的不同,数据结构分为逻辑结构和物理结构
-
逻辑结构分为四种
1、集合结构:集合结构中的数据元素除了同属于一个集合外,它们之间没有其他关系
2、线性结构:线性结构中的数据元素是一对一的关系
3、树形结构:树形结构中的数据元素之间存在一种一对多的层次关系
4、图形结构:图形结构的数据元素是多对多的关系 -
物理结构,是指数据的逻辑结构在计算机中的存储形式,也叫存储结构,分为两种:
1、顺序存储结构:是把数据元素存放在地址连续的存储单元里,其数据间的逻辑关系和物理关系是一致的
2、链式存储结构:是把数据元素存放在任意的存储单元里,这组存储单元可以是连续的,也可以是不连续的。数据元素的存储关系并不能反映其逻辑关系,因此需要用一个指针存放数据元素的地址,这样通过地址就可以找到相关联数据元素的位置
逻辑结构是面向问题的,而物理结构是面向计算机的,其基本的目标就是将数据及其逻辑关系存储到计算机的内存中
- 数据类型是指一组性质相同的值的集合及定义在此集合上的一些操作的总称
- 抽象是指抽取出事物具有的普遍性的本质,它是抽出问题的特征而忽略非本质的细节,是对具体事物的一个概括,抽象是一种思考问题的方式,它隐藏了繁杂的细节,只保留实现目标所必须的信息
- 抽象数据类型是指一个数学模型及定义在该模型上的一组操作,体现了程序设计中问题分解、抽象和信息隐藏的特性
算法的基本概念
算法是解决特定问题求解步骤的描述,在计算机中表现为指令的有限序列,并且每条指令表示一个或多个操作
-
算法具有五个基本特性:输入、输出、有穷性、确定性和可行性
1、输入输出:算法具有零个或多个输入,一个或多个输出
2、有穷性:算法在执行有限的步骤后,自动结束而不会出现无限循环,并且每一个步骤在可接受的时间内完成
3、确定性:算法的每一步骤都具有确定的含义,不会出现二义性
4、可行性:算法的每一步都必须是可行的,也就是说,每一步都能够通过执行有限次数完成 -
算法设计要求:正确性、可读性、健壮性、时间效率高和存储量低
1、正确性:算法的正确性是指算法至少应该具有输入、输出和加工处理无歧义性,能正确反映问题的需求,能够得到问题的正确答案,正确性有以下四个层次
(1)无语法错误
(2)对于合法的输入数据能够产生满足要求的输出结果
(3)对于非法的输入数据能够得出满足规格说明的结果
(4)对于精心选择的、甚至是刁难的测试数据都有满足要求的输出结果
通常把(3)作为正确性标准,(4)实现成本太高
2、可读性:算法设计的另一个目的是为了便于阅读、理解和交流
3、健壮性:当输入数据不合法时,算法也能做出相关处理,而不是产生异常或莫名其妙的结果
4、时间效率高和存储量低:指执行时间短、占用内存和外部硬盘存储空间少
算法效率的度量方法
算法效率的度量方法,通常说的是执行时间的度量,有事后统计方法和事前分析估算方法
-
事后统计方法:这种方法主要是通过设计好的测试程序和数据,利用计算机计时器对不同算法编制的程序的运行时间进行比较,从而确定算法效率的高低,但这种方法有很大缺陷,是不推荐的,至于它的缺点有以下:
1、需要根据算法编写测试程序,如果算法不好,测试程序就白写了
2、时间比较依赖硬件、软件等各种因素,无法横向比较
3、算法的测试数据设计困难,什么样的数据才能保证结果客观难以界定 -
事前分析估算方法:在计算机程序编制前,依据统计方法对算法进行估算。高级编程语言编写的程序在计算机上运行时所消耗的和时间取决于以下因素:
1、算法采用的策略、方法
2、编译产生的代码质量
3、问题的输入规模
4、机器执行指令的速度
其中抛开硬件和软件的因素,程序运行时间依赖于(1)(2)
测定运行时间
测定运行时间最可靠的方法就是计算对运行时间有消耗的基本操作的执行次数,运行时间与这个计算成正比。分析算法的运行时间时,重要的是把基本操作的数量与输入规模关联起来,即基本操作的数量必须表示成输入规模的函数
-
函数的渐近增长:给定两个函数f(n)和g(n),如果存在一个整数N,使得对于所有的n>N,f(n)总是比g(n)大,那么我们说f(n)的增长渐近快于g(n),算法的优劣要根据输入规模做综合考量
-
判断一个算法的效率时,函数中的常数和其他次要项常常可以忽略,而更应该关注主项(最高阶项)的阶数,也就是函数中的常数可以忽略
-
算法时间复杂度:在进行算法分析时,语句总的执行次数T(n)是关于问题规模n的函数,进而分析T(n)随n变化情况并确定T(n)的数量级。算法的时间复杂度,也就是算法的时间量度,记作T(n)=O(f(n))。它表示随问题规模n的增大,算法执行时间的增长率和f(n)的增长率相同,称作算法的渐近时间复杂度,简称为时间复杂度。其中f(n)是问题规模n的某个函数,这种记法也称为大O记法,一般情况下,随着n增大,T(n)增长最慢的算法为最优算法。
-
推导大O阶的方法
1、用常数1取代运行时间中的所有加法常数
2、在修改后的运行次数函数中,只保留最高阶项
3、如果最高阶项存在且系数不是1,则去除与这个项相乘的系数
常数阶,表示为O(1),执行时间恒定与输入规模无关,对于分支结构if...else,无论真假,执行的次数都是恒定的,也是O(1)
线性阶,表示为O(n),分析循环结构的运行情况
对数阶,表示为O(logn)