算法导论-1.基础知识
1. 伪代码
1.1与真码的区别:
- 伪代码与真码的区别在于,在伪代码中,我们使用最清晰、最简洁的表示方法来说明给定的算法。有时最清晰的表示方法时英语,所以如果你遇到一个英文短语或句子嵌入在一段真码中就不要吃惊。
- 伪代码与真码的另一个区别是伪代码通常不关心软件工程的问题。
- 伪代码为了更简洁的表达算法的本质,常常忽略数据抽象、模块性和错误处理的问题。
1.2 伪代码中的约定:
- 缩进表示快结构
- while、for与repeat-until等循环结构以及if-else等条件结构与c、c++、python和pascal中的结构具有类似的解释。当一个for循环每次迭代增加其循环计数器时,我们使用关键词to,当一个for循环每次迭代减少其循环计数器时,我们使用关键词downto。当循环计数器以大于1的一个量改变时,该改变量跟在可选关键词by之后。
- 符号“//”表示该行后面部分是注释
- 多重赋值i=j=e是将表达式e的值赋给变量i和j;
- 变量(如i,j和key等)是局部于给定过程的。在没有显示说明的情况下,我们不使用全局变量
- 数组元素是通过“数组名[下标]”这样的形式来进行访问的。A[i]表示数组A的第i个元素,符号“..”用来表示数组中的一个取值范围;
- 复合数据一般组织成对象,它们是由属性(attribute)或域(field)所组成的。域的访问是由域名跟由方括号的对象名形式来表示。在表示数组元素和对象属性时,都要用到方括,一般来说,通过上下文就可以看出其含义;
用于表示一个数组或对象的变量被看作是指向表示数组或对象的数据的一个指针。对于某个对象x的所有域f,赋值y=x就使得f[y] = f[x]。更进一步,如果有f[x] = 3,则不仅有f[x] = 3,同时f[y] = 3。换言之,在赋值 y = x 后,x 和 y 指向同一个对象;
有时,一个指针不指向任何对象。这使,我们赋给它NULL; - 参数采用按值传递方式:被调用的过程会收到参数的的一份副本。如果它对某个参数赋值的话,主调过程是看不见这一变动的。当对象被传递时,实际传递的是一个指向对象数据的指针,而对象的各个域则不被拷贝;
- 布尔运算符“and”和“or”都具有短路能力。亦即,当我们求表达式“x and y”的值时,首先计算x的值。如果x的值为FALSE,那么整个表达式的值就不可能为TRUE了,因而就无需再对y求值了。但是,如果x的值为TRUE的话,就必须进一步计算出y的值,才能确定整个表达式的值。类似地,在计算表达式“x or y”的值时,仅当x的值为FALSE时,才需要计算子表达式y的值。短路运算符允许我们写出如“x=/(不等于)NIL and f[x] = y“这样的布尔表达式,而不用担心当我们试图在x为NIL时计算f[x],会发生怎样的情况。
2. 循环不变式
循环不变式主要用来帮助我们理解算法的正确性,关于循环不变式,我们必须证明三条性质
1.初始化:循环的第一次迭代之前,它为真
2.保持:如果循环的某次迭代之前它为真,那么下次迭代之前它仍为真
3.终止:在循环终止时,不变式为我们提供一个有用的性质,该性质有助与证明算法是正确的
注意:
1.当前两条性质成立时,在循环的每次迭代之前循环不变式为真。(当然,为了证明循环不变式在每次迭代之前保持为真,我们完全可以使用不同于循环不变式本身的其他已证实的事实)注意,这类似与数学归纳法,其中为了证明某条性质成立,需要证明一个基本情况和一个归纳步。这里,证明第一次迭代之前不变式成立对应于基本情况,证明从一次迭代到下一次迭代不变式成立对应于归纳步。
2.第三条性质是最重要的,因为我们将使用循环不变式来证明正确性。通常我们和导致循环终止的条件一起使用循环不变式。终止性不同于我们通常使用数学归纳法的做法,在归纳法中,归纳步是无限使用的,这里当循环终止时,停止“归纳”。
3. 循环不变式例子--插入排序
3.1 伪代码:
参数是数组A[1...n]
INSERTION-SORT(A)
1 for j = 2 to A.length
2 key = A[j]
3 //insert A[j] into the sorted sequence A[1 ... j-1]
4 i = j -1
5 while(i > 0 and A[i] > key)
6 A[i+1] = A[i]
7 i = i - 1
8 A[i + 1] = key
在for循环(循环变量为j)的每次迭代的开始,包含元素A[1...j-1]的子数组构成了当前排序好的牌,剩余的子数组A[j+1...n]对应于仍在桌子上的牌堆,我们把A[1...j-1]的这些性质形式地表示为一个循环不变式:
3.2 解析
初始化:
首先证明在第一次循环迭代之前(当j=2时),循环不变式成立。所以子数组A[1...j-1]仅由单个元素A[1]组成,实际上就是A[1]中原来的元素。而且该子数组是排序好的,这表明第一次循环跌打之前循环不变式成立
保持
"证明每次迭代保持循环不变式"
非形式化地,for循环体的第4-7行将A[j-1]、A[j-2]、A[j-3]等向右移动一个位置,直到找到A[j]的适当位置,第8行将A[j]的值插入该位置。这时子数组由原来在A[1...j]中的元素组成,但已按序排列
终止
导致for循环终止的条件是j>A.length=n,因为每次迭代j+1,那么必有j = n+1,在循环不变式中将j用n+1代替,我们有:子数组A[1...n]由原来在A[1...n]中的元素组成,但已按需排列,这时,子数组就是整个数组,因此算法正确
4. 渐近记号
4.1渐近精确界记号:Θ(big-theta)
Θ 的数学含义
方式一:设f(n)和g(n)是定义域为自然数集合的函数。如果limn→∞f(n)g(n)存在,并且等于某个常数c(c>0),那么f(n)=Θ(g(n)。通俗理解为f(n)和g(n)同阶,ΘΘ用来表示算法的精确阶。
方式二:Θ(g(n))={f(n):存在正常量c1、c2和n0,使得对所有n≥n00,有0≤c1g(n)≤f(n)≤c2g(n)}若存在正常量c1、c2,使得对于足够大的n,函数f(n)能“夹入”c1g(n)与c2g(n)之间,则f(n)属于集合Θ(g(n)),记作f(n)∈Θ(g(n))。作为代替,我们通常记“f(n)=Θ(g(n))”。
4.2 渐近上界记号:O(big-oh)
定义:设f(n)和g(n)是定义域为自然数集N上的函数。若存在正数c和n0,使得对一切n≥n0n≥n0都有0≤f(n)≤cg(n)成立,则称f(n)的渐进的上界是g(n),记作f(n)=O(g(n))。通俗的说n满足一定条件范围内,函数f(n)的阶不高于函数g(n)。
4.3 渐近下界记号:Ω(big-omege)
定义:设f(n)和g(n是定义域为自然数集N上的函数。若存在正数c和n0,使得对一切n≥n0n≥n0都有0≤cg(n)≤f(n)成立,则称f(n)的渐进的下界是g(n),记作f(n)=Ω(g(n))。通俗的说n满足一定条件范围内,函数f(n)的阶不低于函数g(n)。
4.4 非渐近紧确上界:o(小-oh)
定义1:设f(n)和g(n)和g(n)是定义域为自然数集N上的函数。若对于任意正数c,都存在n0,使得对一切n≥n0都有0≤f(n)<cg(n)成立,则称f(n)的渐进的非紧确上界是g(n),记作f(n)=o(g(n))。通俗的说n满足一定条件范围内,函数f(n)f的阶低于函数g(n)。
定义2:设f(n)和g(n))是定义域为自然数集合的函数。如果limn→∞f(n)/g(n)=0,那么f(n)=o(g(n))。通俗理解为f(n)低于g(n)的阶。
4.5 非渐近紧确下界:ω(小-omege)
定义1:设f(n)和g(n)和g(n)是定义域为自然数集N上的函数。若对于任意正数c, 都存在n0,使得对一切n≥n0n≥n0都有0≤cg(n)<f(n)成立,则称f(n)f(n)的渐进的非紧确下界是g(n),记作f(n)=ω(g(n)。通俗的说n满足一定条件范围内,函数f(n)的阶高于函数g(n)。
定义2:设f(n)和g(n)是定义域为自然数集合的函数。如果limn→∞f(n)/g(n)=∞,那么f(n)=o(g(n))。通俗理解为f(n)高于g(n)的阶。
4.6 渐近记号Θ、Ο、o、Ω、ω关系
记号 | 含义 | 通俗理解 |
---|---|---|
(1) Θ(西塔) | 紧确界。 | 相当于”=” |
(2) O(大欧) | 上界。 | 相当于”<=” |
(3) o (小欧) | 非紧的上界。 | 相当于”<” |
(4) Ω(大欧米伽) | 下界。 | 相当于”>=” |
(5) ω(小欧米伽) | 非紧的下界。 | 相当于”>” |