数据结构与Python的数据结构

2018-12-23 本文已影响0人奥特曼打_小怪兽

1.什么是数据结构？

数据结构就是计算机存储、组织数据的方式。

2.常见的数据结构

1.数组

2.栈

3.队列

4.链表

5.树

6.堆

7.哈希表

8.图

2.1 数组

数组是可以在内存中连续存储多个元素的结构，数组的元素通过数组下标进行访问，下标从0开始。

数组

优点：

读取快，因为读取数据用的索引，只要知道索引就可以取出数据

缺点：

1. 大小固定后就无法扩容了

2.数组中只能存储一种类型的数据

3. 插入，删除慢，因为存储数据的内存是连续的，要插入或删除就要变更整个数组中的数据位置

2.2 栈

栈是一种特殊的线性表，仅能在栈顶操作，栈底不允许操作。特点：先进后出。

栈

数组和链表都可以组成栈，栈常用于实现递归功能。

2.3 队列

队列是一种先进先出的数据结构，像一根管子，两头都是开放的，栈的一头是封闭的

2.4 链表

链表是动态的分配存储空间，是非连续，非顺序的存储结构，链表在存储数据的内存中有两块区域，一块用来存储数据，一块用来记录下一个数据保存的位置（指向下一个数据的指针），根据指针的指向，链表能形成不同的结构，如单链表，双向链表，循环链表等。元素的逻辑顺序是通过链表的指针地址实现的。链表将一些碎片空间利用起来了。

链表的数据及指针

优点：

不需要初始化容量，可以任意加减元素

添加，删除快，因为只需要更改前后两个元素的指针地址即可。

缺点：

查询慢，因为查找元素需要遍历链表来查询，适用于数据量小，增减操作频繁的场景。

2.5 树

树是一种数据结构，它是由n（n>=1）个有限节点组成一个具有层次关系的集合。把它叫做 “树” 是因为它看起来像一棵倒挂的树，也就是说它是根朝上，而叶朝下的。它具有以下的特点：

每个节点有零个或多个子节点；

没有父节点的节点称为根节点；

每一个非根节点有且只有一个父节点；

除了根节点外，每个子节点可以分为多个不相交的子树；

2.5.1 二叉树

二叉树是树的特殊一种，具有如下特点：

1、每个结点最多有两颗子树，结点的度最大为2。

2、左子树和右子树是有顺序的，次序不能颠倒。

3、即使某结点只有一个子树，也要区分左右子树。

二叉树是一种比较这种的方案，它添加，删除元素都很快，查找也有优化方法，所以有二叉树既有链表和数组的好处。在处理大批量的动态数据方面很有用。

树的概念：

根：树的顶端节点

叶子：没有子树的节点（度为0的节点）叫叶子，也就是终端节点。

度: 节点所拥有的子树的个数成为度

边：一个节点和另一个节点之间的连接叫做边

层次：树的层次从根节点开始；根为第0层，根的子树为第1层，以此类推。

节点的高度：该节点与某个叶子之间存在的最长路经上的边的个数

节点的深度：树的根节点到该节点的边数。

树的高度：根节点的高度

树的深度：树中节点的最大层次

树的概念

完美二叉树：所有父节点都有2个子树

完全二叉树：从根节点到倒数第二层都满足完美二叉树，最后一层的可以不完全填充，其叶子节点都靠左对齐。

完满二叉树：所有分叶子节点的度都是2（只要有孩子，就必须两个）

二叉查找树

（1）二叉查找树性质

<1> 若左子树不为空，则左子树上所有节点的值均小于它的根节点的值。

<2> 若右子树不为空，则右子树上所有节点的值均大于或等于它的根节点的值。

<3> 左右子树也分别为二叉排序树

<4> 没有键值相等的节点

<5> 二叉树的高度决定了查找效率

（2）二叉查找树的插入过程

step1：若当前的二叉查找树为空，则插入的元素为根节点。

step2：若插入的元素值小于根节点值，则将元素插入到左子树中。

step3：若插入的元素大于等于根节点的值，则将元素插入到右子树中。

（3）二叉查找树的删除过程

s1：p为叶子节点，直接删除该节点，再修改其父节点的指针（注意分根节点和不是根节点）

s2：p为单支节点（只有左子树或右子树），让p的子树与p的父节点相连，删除p即可。

s3：p的左子树和右子树均不为空，找到p的后继y（y为节点，不是叶子），因为y一定没有左子树，所以可以删除y，连接y的父节点和右子树，右子树成为左子树，并用y的值代替p的值。或方法二是找到p的前驱x，x一定没有右子树。所以可以删除x，并让x的父节点成为y的左子树的父节点。

2.5.2 红黑树

红黑树树一种二叉查找树，但在二叉查找树的基础上额外添加了一个颜色标记，同时具有一定的规则，这些规则使树保证了一种平衡，插入，删除，查找的最坏时间复杂度为O，红黑树每个节点上都有存储位表示节点的颜色，可以是红或黑

红黑树特性：

1. 根节点是黑色的

2，每个节点或者是黑色或者是红色

3. 如果一个节点是红色的，则它的子节点必须是黑色的

4.每一个叶子节点是黑色的【是指为空（NILor NULL）的叶子节点】

红黑树主要是用它来存储有序的数据，它的时间复杂度是O(lgn)，效率非常之高。例如，Java集合中的TreeSet和TreeMap，C++ STL中的set、map，以及Linux虚拟内存的管理，都是通过红黑树去实现的。

红黑树的基本操作：

左旋：被旋转的节点将变成一个左节点

X节点左旋

右旋：被旋转的节点将变成一个右节点

2.6 堆

堆就是用数组实现的完全二叉树，所以它没有使用父指针或子指针，堆根据“堆属性”来排序，“堆属性”决定了树种节点的位置。

堆属性

堆分为两种：最大堆和最小堆，两者的区别再与节点的排序方式。

最大堆：父节点的值比每一个子节点的值都要大，在最小堆中，父节点的值比每一个子节点的值都要小，这个属性对堆中的每一个节点都成立。注意：堆中根节点存放的是最大或最小元素，但是其他节点的排序是未知的，最小的元素未必是最后一个元素，

3 .python的数据结构

python的数据结构有列表list，元祖tuple，字典dict

3.1 列表list

python的列表list是由对其他对象的引用组成的连续数组，指向这个数组的指针及其长度被保存在一个列表头结构中。

当python定义一个list时，Cpython会定义指向列表对象的指针数组ob_item和申请的内存槽的个数allocated。

list可以存储任意类型的数据，pop()默认删除最后一个元素，pop(1)第二个元素，remove(指定元素)，del(从内存中删除列表)

列表的增加：+（拼接），append（追加），extend(拉伸),insert（插入）

列表的删除：pop(默认删除最后一个元素)，pop(1）删除第二个元素，del(从内存中删除列表)

3.2 元组tuple

跟list相似，但tuple的元素不可变，一旦设定不可通过索引修改。

1.元组是固定的列表，那么元组的意义何在呢？

因为tuple不可变，所以代码更安全。如果可能，能用tuple代替list就尽量用tuple

并且需要注意元组中元素的可变性！！

2.空的tuple可以记为()，若只有一个元素的tuple记为(1,)

因为记为(1)的话，这个实际代表的是数字1，此时()是数学公式中的小括号

3.因为元组是固定的列表，所以其内置的大多数的方法和列表是差不多的。

4.可以通过tuple将序列转换为元组，用法和list一样

3.3 字典dict

在python中字dict和set是非常常用的两种数据结构，但是两种数据结构为什么要放在一起讨论。因为他们之所以拥有非常快的速度，是因为他们的内部结构都是散列表

dict中的散列表

散列表算法：正常想要获取dict中的值，首先要知道key,通过dict[key]获取对应的value,在散列表中为了达到这种操作，首先会计算key的hash值即散列值，把这个值最低的几位数字当作偏移量，在散列表里查找表元（具体取几位，得看当前散列表的大小）。若找到表元为空，异常KeyError，不为空，表元里会有一对found_key:found_value。这时候python会校验search_key==found_key是否为真，如果它们相等的话。就会返回found_value。若果两个值不匹配，则是散列冲突。为了解决散列冲突，算法会在散列值中另外再取几位，然后用特殊的方法处理一下，把新得到的数字再当作索引来寻找表元。

1.key必须是可hash的，所有不可变类型都是可哈希的故可作为键，可变类型不可哈希即不可作为键，如列表，字典类型。

2.在内存消耗上是巨大的，由于字典使用了散列表，而散列表又必须是稀疏的，这导致它在空间上的效率低下。

3.key查询很快，hash表空间换时间。

4.key的排列顺序，取决于添加顺序，并且当dict添加新数据，原有的排列可能会被打乱，因为Python 会设法保证大概还有三分之一的表元是空的，所以在快要达到这个阈值的时候，原有的散列表会被复制到一个更大的空间里面。这时候重新hash导致排列顺序改变。

5.由此可知，不要对字典同时进行迭代和修改。如果想扫描并修改一个字典，最好分成两步来进行：首先对字典迭代，以得出需要添加的内容，把这些内容放在一个新字典里；迭代结束之后再对原有字典进行更新。

dict基本操作

1. 创建：d={'a':1,'b':2,'c':3}

2.取值：d['a']

3.添加元素：d['d']=4

4.删除元素：d.pop('b')；del d['b']

5.访问元素d['f'],不存在会报错，用d.get('f')没有异常，只返回None

6.长度： len(d)