数据结构和算法分析算法与数据结构算法与数据结构

算法

2018-10-11  本文已影响7人  HOWD

算法的定义

算法是解决特定问题求解步骤的描述,在计算机中表现为指令的有限序列,并且每条指令表示一个或多个操作

算法定义中,提到了指令,指令能被人或机器等计算装置执行。它可以是计算机 指令,也可以是我们平时的语言文字。

为了解决某个或某类问题,需要把指令表示成一定的操作序列,操作序列包括一 组操作,每一个操作都完成特定的功能,这就是算法了。

算法的特征

算法具有五个基本特性:输入、输出、有穷性、确定性和可行性。

输入输出

输入和输出特性比较容易理解, 算法具有零个或多个输入。尽管对于绝大多数算 法来说,输入参数都是必要的,但对于个别情况,如打印 "hello world! " 这样的代 码,不需要任何输入参数3 因此算法的输入可以是零个。 算法至少有一个或多个输 出, 算法是一定需要输出的,不需要输出,你用这个算法干吗?输出的形式可以是打 印输出,也可以是返回一个或多个值等.

有穷性

有穷性:指算法在执行有限的步骤之后,自动结束而不会出现无限循环,并且每 一个步骤在可接受的时间内完成。现实中经常会写出死循环的代码,这就是不满足有穷性。当然这里有穷的概念并不是纯数学意义的,而是在实际应用当中合理的、可以接受的"有边界飞你说你写一个算法,计算机需要算上个二十年,一定会结束,它在数学意义上是有穷了,可是媳妇都熬成婆了,算法的意义也不就大了。

确定性

确定性:算法的每一步骤都具有确定的含义, 不会出现二义性。 算法在一定条件下,只有一条执行路径,相同的输入只能有唯一的输出结果。算法的每个步骤被精确定义而无歧义。

可行性

可行性:算法的每一步都必须是可行的, 也就是说,每一步都能够通过执行有限次数完成。 可行性意味着算法可以转换为程序上机运行,并得到正确的结果。尽管在目前计算机界也存在那种没有实现的极为复杂的算法, 不是说理论上不能实现, 而是因为过于复杂,我们当前的编码方法、工具和大脑限制了这个工作,不过这都是理论研究领域的问题,不属于我们现在要考虑的范围。

算法设计的要求

1.正确性

正确性:算法的正确性是指算法至少应该具有输入、输出和加工处理无歧义性、 能正确反映问题的需求、能够得到问题的正确答案。

但是算陆的"正确"通常在用法上有很大的差别,大体分为以下四个层次。

  1. 算法程序没有语法错误。
  2. 算法程序对于合法的输入数据能够产生满足要求的输出结果。
  3. 算法程序对于非法的输入数据能够得出满足规格说明的结果。
  4. 算法程序对于精心选择的,甚至刁难的测试数据都有满足要求的输出结果。

对于这四层含义,层次 1 要求最低,但是仅仅没有语法错误实在谈环上是好算 法。 这就如同仅仅解决温饱, 不能算是生活幸福一样。 而层次 4 是最困难的,我们几 乎不可能逐一验证所有的输入都得到正确的结果。

因此算法的正确性在大部分情况下都不可能用程序来证明,而是用数学方法证明 的。证明一个复杂算法在所4寄层次上都是正确的,代价非常昂贵。所以一般情况下, 我们把层次 3 作为一个算法是否正确的标准。
好算法还有一个特征:容易理解

2.可读性

可读性: 算法设计的另一目的是为了便于阅读、 理解和交流。

3.健壮性

健壮性:当输入数据不合法时,算法也能做出相关处理, 而不是产生异常或莫名 其妙的结果。

4.时间效率高和存储量低

好的算法还应该具备时间效率高和存储虽低的特点。

时间效率指的是算法的执行时间 ,对于同一个问题,如果有多个算法能够解决,执行时间短的算法效率高,执行时间长的效率低。存储量需求指的是算法在执行过程中需要的最大存储空间,主要指算法程序运行时所占用的内存或外部硬盘存储空间。设计算法应该尽量满足时间效率高和存储量低的需求。

在生活中,人们都希望花最少 的钱,用最短的时间 ,办最大的事,算法也是一样的思想,最好用最少的存储空间,花最少的时间,办成同样的事就是好的算法。求 100 个人的高考成绩平均分 ,与求全省的所有考生的成绩平均分在占用时间和内存存储上是有非常大的差异的 ,我们自然是追求可以高效率和低存储量的算法来解决问题。

综上,好的算法,应该具有正确性、 可读性、健壮性、 高效率和低存储量的特征。

算法效率的度量方法

事后统计方法

事后统计方法:这种方法主要是通过设计好的测试程序和数据,利用计算机计时 器对不同算法编制的程序的运行时间进行比较,从而确定算法效率的高低。

但这种方法显然是有很大缺陷的:

  • 必须依据算法事先编制好程序,这通常需要花费大量的时间和精力。 如果 编制出来发现宫根本是很糟糕的算法,不是竹篮打水一场空吗?
  • 时间的比较依赖计算机硬件和软件等环境因素,有时会掩盖算法本身的优 劣。 要知道,现在的一台四核处理器的计算机, N~当年 286、 386、 486 等 老爷爷辈的机器相比,在处理算法的运算速度上,是不能相提并论的 i 而 所用的操作系统、编译器、 运行框架等软件的不同,也可以影响官们的结 果;就算是同一台机器, CPU 使用率和内存占用情况不一样,也会造成细 微的差异。
  • 算法的测试数据设计困难,并且程序的运行时间往往还与测试数据的规模 有很大关系,效率高的算法在才、的测试数据面前往往得不到体现。 比如 10 个数字的排序,不管用什么算沽, 差异几乎是零。 而如果有一百万个随机 数字排序,那不同算法的差异就非常大了。那么我们为了比较算沽,到底 用多少数据来测试,这是很难判断的问题。

基于事后统计方法有这样那样的缺陷,我们考虑不予采纳。

事前分析估算方法

我们的计算机前辈们,为了对算法的评判更科学,研究出了一种叫做事前分析估算的方法。

事前分析估算方法:在计算机程序编制前,依据统计方法对算法进行估算。

经过分析,我们发现,一个用高级程序语言编写的程序在计算机上运行时所消耗的时间取决于下列因素:

  1. 算法采用的策略、方法。
  2. 编译产生的代码质量。
  3. 问题的输入规模。
  4. 机器执行指令的速度。
    第 1 条当然是算法好坏的根本,第 2 条要由软件来支持, 第 4 条要看硬件性能。 也就是说, 抛开这些与计算机硬件、软件有关的因素,一个程序的运行时间,依赖于算法的好坏和问题的输入规模。 所谓问题输入规模是指输入量的多少

我们在分析一个算法的运行时间时,重要的是把基本操作的敬量与输入规模关联 起来, f!P基本操作的数量必须表示成输入规模的函数。如下图所示


image

我们可以这样认为,随着 n 值的越来越大,它们在时间效率上的差异也就越来越大。好比你们当中有些人每天都在学习,我指有用的学习,而不是只为考试的死读书, 每天都在进步,而另一些人,打打游戏,睡睡大觉。 人校时大家都一样, 但毕业时结果可能就大不一样,前者名企争抢着耍,后者求职无门。

函数的渐近增长

函数的渐近增长:给定两个函数 f ( n )和 g ( n ), 如果存在一个整数 N, 使得对于所有的 n > N, f ( n )总是比 g ( n )大,那么, 我们说 f ( n ) 的增长渐近快于 g ( n )。

与最高次项相乘的常数并不重要。

最高次项的指数大 的,函数随着 n 的增长,结果也会变得增长特别快。

判断一个算法的效率时,函数中的常数和其他次要项常常可以忽略,而更应该关注主项(最高阶项) 的阶数。

判断一个算法好不好,我们只通过少量的数据是不能做出准确判断的。根据刚才 的几个样例 , 我们发现,如果我们可以对比这几个算法的关键执行次数函数的渐近增 长性,基本就可以分析出:某个算法,随着 n 的增大,它会越来越优于另一算法,或 者越来越差于另一算法。这其实就是事前估算方法的理论依据, 通过算法时间复杂度来估算算法时间效率。

算法时间复杂度

算法时间复杂度定义

在进行算法分析时, 语旬总的执行次数 T ( n )是关于问题规模 n 的函数,进而分析 T ( n )随 n 的变化情况并确定T ( n ) 的数量级。算法的时间复杂度,也就是算法的时间量度,记作:T ( n ) = O ( f ( n ) )。它表示随问题规模n的增大,算法执行时间的增长率和f ( n ) 的增长率相同。称作算法的渐远时间复杂度,简称胃时间复杂度。f ( n ) 是问题规模n的某个函数。

这样用大写 O()来体现算法时间复杂度的记法,我们称之为大 0 记法。
一般情况下,随着 n 的增大, T(n)增长最慢的算法为最优算法。

显然,由此算法时间复杂度的定义可知,我们的三个求和算法的时间复杂度分别 为 O(n) , O(1), O(n²)。我们分别给官们取了非官方的名称, 0(1)叫常数阶、 O(n)叫线 性阶、 O(n²)叫平方阶,当然,还有其他的一些阶,我们之后会介绍。

推导大 O 阶方法

如何分析一个算法的时间复杂度呢?即如何推导大 0 阶呢?

推导大 O 阶:
  1. 用常鼓 1 取代运行时闺中的所有加法常颤。
  2. 在修改后的运行次搬画锺中,只保留最高阶项。
  3. 如果最高阶项存在且不是 1 ,则去除与这个项相乘的常敢。

得到的结果就是大 O 阶。

常数阶

首先顺序结构的时间复杂度。下面这个算法,也就是刚才的第二种算法(高斯算法) .为什么时间复杂度不是 O(3) .而是O(1)。

ìnt sum = O, n =100;    /*执行一次 */ 
sum = (1+n)*n/2;        /*执行一次 */
prìntf ( "%d" , sum) ; /*执行一次 */

这个算法的运行次数函数是 f (n) =3。 根据我们推导大 0 阶的方法,第一步就是 把常数项 3 改为 1。在保留最高阶项时发现,它根本没有最高阶项,所以这个算法的时间复杂度为 0(1)。

另外,我们试想一下,如果这个算法当中的语句 sum= ( 1+0) 句12 有 10 旬,
即:

int sum = 0, 0 = 100; / *执行 1 次*/ 
sum = (1+n)*0/2; /*执行第 1 次*/ 
sum = (1+n)*0/2; /*执行第 2 次*/
sum = (1+n)*0/2; /*执行第 3 次*/
sum = (1+n)*0/2; /*执行第 4 次*/
sum = (1+n)*0/2; /*执行第 5 次*/
sum = (1+n)*0/2; /*执行第 6 次*/
sum = (1+n)*0/2; /*执行第 7 次*/
sum = (1+n)*0/2; /*执行第 8 次*/
sum = (1+n)*0/2; /*执行第 9 次*/
sum = (1+n)*0/2; /*执行第 10 次*/
printf ("%d",sum); /*执行 1 次*/

事实上无论 n 为多少,上面的两段代码就是 3 次和 12 次执行的差异。这种与问 题的大小无关 (n 的多少) ,执行时间恒定的算法,我们称之为具有 0(1)的时间复杂 度,又叫常数阶。

注意: 不管这个常数是多少,我们都记作 O(1),而不能是 0(3)、 0(12)等其他任何数字,这是初学者常常犯的错误。
对于分支结构而言,无论是真,还是假,执行的次数都是恒定的,不会随着 n 的 变大而发生变化,所以单纯的分支结构(不包含在循环结构中) ,其时间复杂度也是0(1)。

线性阶

线性阶的循环结构会复杂很多。要确定某个算法的阶次,我们常常需要确定某个 特定语句或某个语句集运行的次数。因此,我们要分析算法的复杂度,关键就是要分 析循环结构的运行情况。

下面这段代码,它的循环的时间复杂度为 O(n) , 因为循环体中的代码须要执行 n次。

int i; 
for (i = 0; i < n; i++)
{
    /* 时间复杂度为O(1)的程序步骤序列 */
}

对数阶

int count = 1; 
while (count < n)
{
    count = count * 2; 
    /* 时间复杂皮为 O(1) 的程序步骤序列 */ 
}

由于每次 count 乘以 2 之后,就距离 n 更近了一分。 也就是说,有多少个2相乘后大于 n ,则会退出循环。 由 2x=n 得到 x=log2n。 所以这个循环的时间复杂度为 o (logn)。

平方阶

下面例子是一个循环嵌套,它的内循环刚才我们已经分析过,时间复杂度为 O(n)。

i nt i ,j ; 
for (i = 0; i < n; i++) 
{
        for ( j = 0 ; j < n ; j++)
    { 
        /*时间复杂度为O(1)的程序步骤序列*/
    }
}

而对于外层的循环,不过是内部这个时间复杂度为 O(n)的语旬,再循环 n 次。 所以这段代码的时间复杂度为 O(n²).

如果外循环的循环次数改为了m ,时间复杂度就变为 O(mXn)。

i nt i ,j ; 
for (i = 0; i < m; i++) 
{
        for ( j = 0 ; j < n ; j++)
    { 
        /*时间复杂度为O(1)的程序步骤序列*/
    }
}

所以我们可以总结得出,循环的时间复杂度等于循环体的复杂度乘以该循环运行的次数。

那么下面这个循环嵌套,它的时间复杂度是多少呢?

i nt i ,j ; 
for (i = 0; i < m; i++) 
{
        for ( j = 0 ; j < n ; j++)
    { 
        /*时间复杂度为O(1)的程序步骤序列*/
    }
}

由于当 i= 0 时,内循环执行了 n 次,当 i = 1 时,执行了 n-1 次,……当 i=n一1 时,执行了 1 次。所以总的执行次数为:


image

用我们推导大 0 阶的方法,第一条,没有加法常数不予考虑j 第二条,只保留最 高阶项,因此保留时/2; 第三条,去除这个项相乘的常数,也就是去除 1/2 ,最终这 段代码的时间复杂度为 O(n2)。

常见的时间复杂度

常见的时问复杂度如表所示


image

常用的时间复杂度所耗费的时间从小到大依次是:

image image

最坏情况与平均情况

我们查找一个有n 个随机数字数组中的某个数字, 最好的情况是第一个数字就是,那么算法的时间复杂度为 0(1) ,但也有可能这个数字就在最后一个位置上待着,那么算法的时间复杂度就是 O(n),这是最坏的一种情况了。

最坏情况运行时间是一种保证,那就是运行时间将不会再坏了。 在应用中,这是 一种最重要的需求, 通常, 除非特别指定, 我们提到的运行时间都是最坏情况的运行 时间。

而平均运行时间也就是从概率的角度看 , 这个数字在每一个位置的可能性是相同的,所以平均的查找时间为n/2 次后发现这个目标元素。
平均运行时闯是所有情况中最有意义的,因为它是期望的运行时间。也就是说, 我们运行一段程序代码时,是希望看到平均运行时间的。可现实中 ,平均运行时间很难通过分析得到,一般都是通过运行一定数量的实验数据后估算出来的。
对算法的分析,一种方法是计算所有情况的平均值,这种时间复杂度的计算方法称为平均时间复杂度。 另一种方法是计算最坏情况下的时间复杂度,这种方法称为最坏时间复杂度。 一般在没有特殊说明的情况下,都是指最坏时间复杂度。

算法空间复杂度

算法的空间复杂度通过计算算法所需的存储空间实现,算法空间复杂度的计算公式记作: S(n)= O(f(n)),其中, n 为问题的规模, f(n)为语句关于 n 所占存储空间的函数。

一般情况下, 一个程序在机器上执行时,除了需要存储程序本身的指令、常数、 变量和输入数据外,还需要存储对数据操作的存储单元,若输入数据所占空间只取决 于问题本身,和算法无关,这样只需要分析该算法在实现时所需的辅助单元即可。若 算法执行时所帘的辅助空间相对于输入数据量而言是个常数,则称此算法为原地工 作,空间复杂度为 0(1)。

通常, 我们都使用"时间复杂度"来指运行时间的需求,使用"空间复杂度"指 空间需求。当不用限定词地使用"复杂度'时,通常都是指时间复杂度。显然我们这 本书重点要讲的还是算法的时间复杂度的问题。

总结回顾

  • 算法的定义:算法是解决特定问题求解步骤的描述,在计算机中为指令的有限序 列,并且每条指令表示一个或多个操作。

在讲解如何用事前分析估算方法之前,我们先给出了函数潮近增长的定义。

函数的渐近增长:给定两个函数 f(n)和 g(n),如果存在一个整数 N, 使得对于所有的 n > N,f(n)总是比 g(n)大,那么,我们说 f(n)的增长渐近快于g(n)。于是我们可以得出一个结论,判断一个算法好不好,我们只通过少量的数据是不能做出准确判断的 ,如果我们可以对比算法的关键执行次数函数的渐近增长性,基本就可以分析出 : 某个算法,随着 n 的变大,它会越来越优于另一算法,或者越来越羞于另一算法。

然后给出了算法时间复杂度的定义和推导大 0 阶的步骤。
推导大 0 阶:

通过这个步骤,我们可以在得到算法的运行次数表达式后,很快得到宫的时间复 杂度,即大 0 阶。同时我也提醒了大家,其实推导大 0 阶很容易,但如何得到运行次数的表达式却是需要数学功底的。

接着我们给出了常见的时间复杂度所耗时阔的大小排列:


image

最后,我们给出了关于算法最坏情况和平均情况的概念,以及空间复杂度的概念。

感谢你花时间读到结尾!:D

后端一枚,默默搬砖撸代码,如果觉得不错欢迎关注我的公众号

image
上一篇下一篇

猜你喜欢

热点阅读