数据结构与算法之美(二):数组

2018-11-26  本文已影响25人  六号先生117

本章内容源于笔者对极客时间《数据结构与算法之美》以下章节的学习笔记:

开篇思考题:为什么数组要从 0 开始编号,而不是从 1 开始呢?

数组的定义

数组(Array)是一种线性表数据结构。它用一组连续的内存空间,来存储一组具有相同类型的数据。

关键词1:线性表

关键词2:连续的内存空间和相同类型的数据

随机访问

数组的随机访问要用到元素在数组中的下标,那么这是怎么实现的?我们知道计算机会给每个内存单元分配一个地址,通过地址来访问内存中的数据,寻址公式:

// base_address为内存块首地址
// data_type_size为数组中每个元素的大小
a[i]_address = base_address + i * data_type_size

补充:很多人在回答数组和链表的区别时认为数组适合查找,查找的时间复杂度为 O(1)。这种表述不准确,数组是适合查找操作,但是查找的时间复杂度并不是 O(1),即便是排好序的数组,利用二分查找,时间复杂度也是 O(logn)。准确的说法是,数组支持随访问,根据下标随机访问的时间复杂度是 O(1)

低效的插入和删除

插入操作

由于数组要保证内存连续性,当要在第k个位置插入一个数据,那么k~n这部分数据都要按顺序往后挪一位。假如插入的位置是数组的末尾,那么数组中原来的元素无需搬移,只需要进行1次操作;假如插入的位置是数组的的首位,那么数组中原来的元素都要往后挪一位,需要操作n次。所以数组中插入元素的时间复杂:

特定情况:当数组只是被当做一个存储集合,插入第k个位置时,可以先将原本第k个位置的数据搬移到数组元素的最后,再把新的元素直接放入第k个位置。这样时间复杂度就会降为 O(1)

删除操作

同样为了保证内存的连续性,数组中的删除操作也需要数据搬移,时间复杂度同插入操作。

特定情况:实际操作并不一定非要追求数组的连续性,要删除数组中元素时,可以先将该元素标记为已删除,当数组没有更多空间存储数据时,再触发一次真正的删除操作,这样就能大大减少删除操作导致的数据搬移。

这恰恰就是JVM标记清除垃圾回收算法的核心思想。不管是软件开发还是架构设计,总能找到算法与数据结构的影子。

数据越界

分析以下C语言代码的运行结果:

int main(int argc, char* argv[]){
    int i = 0;
    int arr[3] = {0};
    for(; i<=3; i++){
        arr[i] = 0;
        printf("hello world\n");
    }
    return 0;
}

结果是出现无限循环,一直打印“hello world”。

解析:由于for循环的边界条件是i<=3,而不是i<3,当i增长至3时数组arr[3]访问越界。申明变量时i和arr并列且i在前,arr长度为3,64位操作系统下默认会进行8字节对其,4个整数刚好满足,arr[3]越界后访问到i。arr[3]=0,也就是i=0,于是进入无限循环。

数组与容器

很多语言针对数组类型提供了容器类,这些容器类不仅封装了很多数组操作的细节,还支持动态扩容。例如Java中的ArrayList,每次存储空间不够时,会自动扩容为原来的1.5倍大小。

相对容器,何时使用数组更合适?

总结:对于业务开发,直接使用容器就足够了,省时省力。毕竟损耗一丢丢性能,完全不会影响到系统整体的性能。但如果是做一些非常底层的开发,比如开发网络框架,性能的优化需要做到极致,这个时候数组就会优于容器,成为首选。

解答开篇

为什么大多数编程语言中,数组要从0开始编号,而不是从1开始呢?

答:下标其实就是元素相对数组首地址的偏移量。数组从0开始编号,a[k]表示元素的内存地址就是:

a[k]_address = base_address + k * type_size

如果数组从1开始编号,a[k]表示元素的内存地址就是:

a[k]_address = base_address + (k-1)*type_size

对比发现,如果数组编号从1开始,每次随机访问元素就多了一次减法运算,CPU就多了一次减法指令。另外就是历史原因了。

思考题一:前面提到JVM,说说你所理解的标记清除垃圾回收算法。

参考回答:大多数主流虚拟机采用可达性分析算法来判断对象是否存活,在标记阶段,会遍历所有GC ROOTS,将所有GC ROOTS可达的对象标记为存活。只有当标记工作完成后,清理工作才会开始。不足:1.效率问题。标记和清理效率都不高,但是当知道只有少量垃圾产生时会很高效。2.空间问题。会产生不连续的内存空间碎片。

思考题二:思考一下二维数组的内存寻址公式。

参考回答:对于m*n的二位数组,a[i]j的内存地址为:

address = base_address + ( i * n + j) * type_size
上一篇下一篇

猜你喜欢

热点阅读