数据结构与Python的数据结构
1.什么是数据结构?
数据结构就是计算机存储、组织数据的方式。
2.常见的数据结构
1.数组
2.栈
3.队列
4.链表
5.树
6.堆
7.哈希表
8.图
2.1 数组
数组是可以在内存中连续存储多个元素的结构,数组的元素通过数组下标进行访问,下标从0开始。
数组优点:
读取快,因为读取数据用的索引,只要知道索引就可以取出数据
缺点:
1. 大小固定后就无法扩容了
2.数组中只能存储一种类型的数据
3. 插入,删除慢,因为存储数据的内存是连续的,要插入或删除就要变更整个数组中的数据位置
2.2 栈
栈是一种特殊的线性表,仅能在栈顶操作,栈底不允许操作。特点:先进后出。
栈数组和链表都可以组成栈,栈常用于实现递归功能。
2.3 队列
队列是一种先进先出的数据结构,像一根管子,两头都是开放的,栈的一头是封闭的
2.4 链表
链表是动态的分配存储空间,是非连续,非顺序的存储结构,链表在存储数据的内存中有两块区域,一块用来存储数据,一块用来记录下一个数据保存的位置(指向下一个数据的指针),根据指针的指向,链表能形成不同的结构,如单链表,双向链表,循环链表等。元素的逻辑顺序是通过链表的指针地址实现的。链表将一些碎片空间利用起来了。
链表的数据及指针优点:
不需要初始化容量,可以任意加减元素
添加,删除快,因为只需要更改前后两个元素的指针地址即可。
缺点:
查询慢,因为查找元素需要遍历链表来查询,适用于数据量小,增减操作频繁的场景。
2.5 树
树是一种数据结构,它是由n(n>=1)个有限节点组成一个具有层次关系的集合。把它叫做 “树” 是因为它看起来像一棵倒挂的树,也就是说它是根朝上,而叶朝下的。它具有以下的特点:
每个节点有零个或多个子节点;
没有父节点的节点称为根节点;
每一个非根节点有且只有一个父节点;
除了根节点外,每个子节点可以分为多个不相交的子树;
2.5.1 二叉树
二叉树是树的特殊一种,具有如下特点:
1、每个结点最多有两颗子树,结点的度最大为2。
2、左子树和右子树是有顺序的,次序不能颠倒。
3、即使某结点只有一个子树,也要区分左右子树。
二叉树是一种比较这种的方案,它添加,删除元素都很快,查找也有优化方法,所以有二叉树既有链表和数组的好处。在处理大批量的动态数据方面很有用。
树的概念:
根:树的顶端节点
叶子:没有子树的节点(度为0的节点)叫叶子,也就是终端节点。
度: 节点所拥有的子树的个数成为度
边:一个节点和另一个节点之间的连接叫做边
层次:树的层次从根节点开始;根为第0层,根的子树为第1层,以此类推。
节点的高度:该节点与某个叶子之间存在的最长路经上的边的个数
节点的深度:树的根节点到该节点的边数。
树的高度:根节点的高度
树的深度:树中节点的最大层次
树的概念完美二叉树:所有父节点都有2个子树
完全二叉树:从根节点到倒数第二层都满足完美二叉树,最后一层的可以不完全填充,其叶子节点都靠左对齐。
完满二叉树:所有分叶子节点的度都是2(只要有孩子,就必须两个)
二叉查找树
(1)二叉查找树性质
<1> 若左子树不为空,则左子树上所有节点的值均小于它的根节点的值。
<2> 若右子树不为空,则右子树上所有节点的值均大于或等于它的根节点的值。
<3> 左右子树也分别为二叉排序树
<4> 没有键值相等的节点
<5> 二叉树的高度决定了查找效率
(2)二叉查找树的插入过程
step1:若当前的二叉查找树为空,则插入的元素为根节点。
step2:若插入的元素值小于根节点值,则将元素插入到左子树中。
step3:若插入的元素大于等于根节点的值,则将元素插入到右子树中。
(3)二叉查找树的删除过程
s1:p为叶子节点,直接删除该节点,再修改其父节点的指针(注意分根节点和不是根节点)
s2:p为单支节点(只有左子树或右子树),让p的子树与p的父节点相连,删除p即可。
s3:p的左子树和右子树均不为空,找到p的后继y(y为节点,不是叶子),因为y一定没有左子树,所以可以删除y,连接y的父节点和右子树,右子树成为左子树,并用y的值代替p的值。或方法二是找到p的前驱x,x一定没有右子树。所以可以删除x,并让x的父节点成为y的左子树的父节点。
2.5.2 红黑树
红黑树树一种二叉查找树,但在二叉查找树的基础上额外添加了一个颜色标记,同时具有一定的规则,这些规则使树保证了一种平衡,插入,删除,查找的最坏时间复杂度为O,红黑树每个节点上都有存储位表示节点的颜色,可以是红或黑
红黑树特性:
1. 根节点是黑色的
2,每个节点或者是黑色或者是红色
3. 如果一个节点是红色的,则它的子节点必须是黑色的
4.每一个叶子节点是黑色的【是指为空(NILor NULL)的叶子节点】
5.
红黑树主要是用它来存储有序的数据,它的时间复杂度是O(lgn),效率非常之高。例如,Java集合中的TreeSet和TreeMap,C++ STL中的set、map,以及Linux虚拟内存的管理,都是通过红黑树去实现的。
红黑树的基本操作:
左旋:被旋转的节点将变成一个左节点
右旋:被旋转的节点将变成一个右节点
2.6 堆
堆就是用数组实现的完全二叉树,所以它没有使用父指针或子指针,堆根据“堆属性”来排序,“堆属性”决定了树种节点的位置。
堆属性
堆分为两种:最大堆和最小堆,两者的区别再与节点的排序方式。
最大堆:父节点的值比每一个子节点的值都要大,在最小堆中,父节点的值比每一个子节点的值都要小,这个属性对堆中的每一个节点都成立。注意:堆中根节点存放的是最大或最小元素,但是其他节点的排序是未知的,最小的元素未必是最后一个元素,
3 .python的数据结构
python的数据结构有 列表list,元祖tuple,字典dict
3.1 列表list
python的列表list是由对其他对象的引用组成的连续数组,指向这个数组的指针及其长度被保存在一个列表头结构中。
当python定义一个list时,Cpython会定义指向列表对象的指针数组ob_item和 申请的内存槽的个数allocated。
list可以存储任意类型的数据,pop()默认删除最后一个元素,pop(1)第二个元素,remove(指定元素),del(从内存中删除列表)
列表的增加:+(拼接),append(追加),extend(拉伸),insert(插入)
列表的删除:pop(默认删除最后一个元素),pop(1)删除第二个元素,del(从内存中删除列表)
3.2 元组tuple
跟list相似,但tuple的元素不可变,一旦设定不可通过索引修改。
1.元组是固定的列表,那么元组的意义何在呢?
因为tuple不可变,所以代码更安全。如果可能,能用tuple代替list就尽量用tuple
并且需要注意元组中元素的可变性!!
2.空的tuple可以记为(),若只有一个元素的tuple记为(1,)
因为记为(1)的话,这个实际代表的是数字1,此时()是数学公式中的小括号
3.因为元组是固定的列表,所以其内置的大多数的方法和列表是差不多的。
4.可以通过tuple将序列转换为元组,用法和list一样
3.3 字典dict
在python中字dict和set是非常常用的两种数据结构,但是两种数据结构为什么要放在一起讨论。因为他们之所以拥有非常快的速度,是因为他们的内部结构都是散列表
dict中的散列表
散列表算法:正常想要获取dict中的值,首先要知道key,通过dict[key]获取对应的value,在散列表中为了达到这种操作,首先会计算key的hash值即散列值,把这个值最低的几位数字当作偏移量,在散列表里查找表元(具体取几位,得看当前散列表的大小)。若找到表元为空,异常KeyError,不为空,表元里会有一对found_key:found_value。这时候python会校验search_key==found_key是否为真,如果它们相等的话。就会返回found_value。若果两个值不匹配,则是散列冲突。为了解决散列冲突,算法会在散列值中另外再取几位,然后用特殊的方法处理一下,把新得到的数字再当作索引来寻找表元。
1.key必须是可hash的,所有不可变类型都是可哈希的故可作为键,可变类型不可哈希即不可作为键,如列表,字典类型。
2.在内存消耗上是巨大的,由于字典使用了散列表,而散列表又必须是稀疏的,这导致它在空间上的效率低下。
3.key查询很快,hash表空间换时间。
4.key的排列顺序,取决于添加顺序,并且当dict添加新数据,原有的排列可能会被打乱,因为Python 会设法保证大概还有三分之一的表元是空的,所以在快要达到这个阈值的时候,原有的散列表会被复制到一个更大的空间里面。这时候重新hash导致排列顺序改变。
5.由此可知,不要对字典同时进行迭代和修改。如果想扫描并修改一个字典,最好分成两步来进行:首先对字典迭代,以得出需要添加的内容,把这些内容放在一个新字典里;迭代结束之后再对原有字典进行更新。
dict基本操作
1. 创建:d={'a':1,'b':2,'c':3}
2.取值:d['a']
3.添加元素:d['d']=4
4.删除元素:d.pop('b');del d['b']
5.访问元素d['f'],不存在会报错,用d.get('f')没有异常,只返回None
6.长度: len(d)