用数据库的方式思考SQL是如何执行的
我们在日常的工作中会经常接触到数据库,那么这些数据库的SQL语句都是怎么执行的呢?
这次我着重从以下几个方面进行介绍:
- Oracle中的SQL是如何执行的,什么是硬解析和软解析
- MySQL中的SQL是如何执行的,MySQL的体系结构是怎样的
- 什么是存储引擎,MySQL的存储引擎有哪些
Oracle中的SQL是如何执行的
先来看下SQL在Oracle中的执行过程:
从上面这张图中可以看出,SQL 语句在 Oracle 中经历了如下过程:
-
语法检查:检查 SQL 拼写是否正确,如果不正确,Oracle 会报语法错误。
-
语义检查:检查 SQL 中的访问对象是否存在。比如我们在写 SELECT 语句的时候,列名写错了,系统就会提示错误。语法检查和语义检查的作用是保证 SQL 语句没有错误。
-
权限检查:看用户是否具备访问该数据的权限。
-
共享池检查:共享池(Shared Pool)是一块内存池,最主要的作用是缓存 SQL 语句和该语句的执行计划。Oracle 通过检查共享池是否存在 SQL 语句的执行计划,来判断进行软解析,还是硬解析。那软解析和硬解析又该怎么理解呢?
在共享池中,Oracle 首先对 SQL 语句进行 Hash 运算,然后根据 Hash 值在库缓存(Library Cache)中查找,如果存在 SQL 语句的执行计划,就直接拿来执行,直接进入“执行器”的环节,这就是软解析。
如果没有找到 SQL 语句和执行计划,Oracle 就需要创建解析树进行解析,生成执行计划,进入“优化器”这个步骤,这就是硬解析。
-
优化器:优化器中就是要进行硬解析,也就是决定怎么做,比如创建解析树,生成执行计划。
-
执行器:当有了解析树和执行计划之后,就知道了 SQL 该怎么被执行,这样就可以在执行器中执行语句了。
共享池是Oracle中的术语,包括库缓存,数据字典缓冲区等。上面说的就是库缓存区,主要缓存SQL语句和执行计划。而数据字典缓冲区存储的是Oracle中的对象定义,比如表,视图,索引等对象。当对SQL语句进行解析的时候,如果需要相关数据,就会从数据字典缓冲区提取。
库缓存这一个步骤,决定了SQL语句是否需要进行硬解析。为了提升SQL的执行效率,应该尽量避免硬解析,因为在SQL的执行过程中,创建解析树,生成执行计划是十分消耗资源的。
你可能会问,如何避免硬解析,尽量使用软解析呢?在Oracle中,绑定变量是它的一个特色。具体来说,就是在SQL语句中使用变量,通过不同的变量取值来改变SQL的执行结果。这样的好处是能够提升软解析的可能性,不足之处就在于可能会导致生成的执行计划不够优化,因此是否需要绑定变量还需要视情况而定。
举一个例子,我们使用下面的查询语句:
SQL > select * from player where player_id = 10001;
如果使用绑定变量,如:
SQL > select * from player where player_id = :player_id;
这两个查询语句的效率在Oracle中完全不同,如果在查询player_id = 10001以后,还会查询10002、10003之类数据,那么每一次查询都会创建一个新的查询解析。而第二种方式使用了绑定变量,那么在第一次查询之后,在共享池中就会存在这类查询的执行计划,也就是软解析。
MySQL中的SQL是如何执行的
MySQL是典型的C/S架构,服务端使用的mysqld。
可以看到,MySQL由三层组成:
-
连接层:客户端和服务器端建立连接,客户端发送SQL到服务端。
-
SQL层:对SQL语句进行查询处理。
-
存储引擎层:与数据库文件打交道,负责数据读取和存储。
-
查询缓存:Server如果在查询缓存时发现了这条SQL语句,就会直接将结果返回给客户端;如果没有,机会进入到解析器阶段。需要说明的情况是,因为查询缓存的效率不是很高,因此在MySQL8.0之后就逐渐抛弃了这个功能。
-
解析器:在解析器中对SQL语句进行语法分析,语义分析。
-
优化器:在优化器中会确定SQL语句的执行路径,比如是 根据全表进行检索,还是根据索引进行检索。
-
执行器:在执行之前应该判断该用户是否具备了权限,具备权限就执行SQL查询并返回结果。
所以在MySQL中的SQL语句执行流程是:SQL语句->缓存查询->解析器->优化器->执行器。
与Oracle不同的是,MySQL的存储引擎采用了插件的形式,每个存储引擎都面向一种特定的数据库应用环境。下面是一些常用的存储引擎:
- InnoDB 存储引擎:它是 MySQL 5.5.8 版本之后默认的存储引擎,最大的特点是支持事务、行级锁定、外键约束等。
- MyISAM 存储引擎:在 MySQL 5.5.8 版本之前是默认的存储引擎,不支持事务,也不支持外键,最大的特点是速度快,占用资源少。
- Memory 存储引擎:使用系统内存作为存储介质,以便得到更快的响应速度。不过如果 mysqld 进程崩溃,则会导致所有的数据丢失,因此我们只有当数据是临时的情况下才使用 Memory 存储引擎。
- NDB 存储引擎:也叫做 NDB Cluster 存储引擎,主要用于 MySQL Cluster 分布式集群环境,类似于 Oracle 的 RAC 集群。
- Archive 存储引擎:它有很好的压缩机制,用于文件归档,在请求写入时会进行压缩,所以也经常用来做仓库。
总结
两种数据库都是通过解析器->优化器->执行器
这样的流程来执行SQL的。
但是Oracle和MySQL在进行SQL的查询上面有软件实现层面的差异。Oracle提出了共享池的概念,通过共享池来判断是进行软解析还是硬解析。而在MySQL中,8.0以后的版本不再支持查询缓存,而是直接执行解析器->优化器->执行器的流程,这一点从MySQL中的show profile里也能看到。