数据库系统原理之关系代数
关系代数基于集合(关系),定义了一系列对集合(关系)对操作。如并,差,笛卡尔积,选择,更名,投影等基本操作,以及基于基本操作推导出来的扩展操作。
关系代数作用于一个或多个关系,然后产生一个新的关系。可以将关系代数理解为函数,接受一个关系输入,返回一个新对关系。举个例子,我们将并操作命名为 Union
,那么并操作可以表示为:
output:R = Union(input:R);
对于其他对操作如差操作,选择操作等,都有相应对数学符号进行表示,但在简书中输入这些符号比较困难,再加上我学习关系代数是了解基本的概念知识,这里就不使用数学符号表示了,而是以文字代替。
关系代数定义了基于集合(关系)的操作,其是 SQL 的重要基础(另一个重要基础是关系演算),了解了关系代数的概念以及各个操作要达到的目的之后,对 SQL 中对一些概念也会更加清晰,如连接操作。
本文首先介绍关系代数中的基础操作,再介绍扩展操作。
基础操作
关系代数的基础操作有:并,差,笛卡尔积,选择,更名,投影等。有些操作如并,差等要求参与运算的关系需要具备并相容性。所谓并相容性,就是两个关系的属性数目(度)相同,并且每个度所在的域相同。
如 R(学生,学号,地址)
和 S(课程,课程号)
两个关系由于度和属性所在的域不相同,因此不具备并相容性,也就无法进行并,差等操作。
相应的,R2(学生,学号,地址)
和 S(教师,教师号,地址)
由于度和属性所在的域相同,因此具备并相容性。
并操作
并操作就是将两个关系合并为一个关系,在合并时去掉重复的元组。为什么要去掉重复项呢?这是集合的特质,集合要求不能有重复项。
R 并 S 和 S 并 R 得到的结果是一样的,即并操作满足交换律。
举个例子,有两个关系 R(学生) 和 S(教师):
姓名 | 学号 | 地址 |
---|---|---|
Mary | 1 | 美国 |
Jerry | 2 | 澳大利亚 |
马云 | 3 | 中国 |
姓名 | 教师号 | 地址 |
---|---|---|
王力 | 1 | 中国 |
Jerry | 2 | 澳大利亚 |
刘东 | 3 | 中国 |
这两个关系进行并操作的结果为:
姓名 | 学号/教师号 | 地址 |
---|---|---|
Mary | 1 | 美国 |
Jerry | 2 | 澳大利亚 |
马云 | 3 | 中国 |
王力 | 1 | 中国 |
刘东 | 3 | 中国 |
差操作
差操作用来选择出现在一个关系但并未出在另一个关系中的元组。
还是以上面两个关系 R(学生)
和 S(教师)
为例,R 差 S 的结果为:
姓名 | 学号/教师号 | 地址 |
---|---|---|
Mary | 1 | 美国 |
马云 | 3 | 中国 |
S 差 R 的结果为:
姓名 | 学号/教师号 | 地址 |
---|---|---|
王力 | 1 | 中国 |
刘东 | 3 | 中国 |
其中元组 T(Jerry,2,澳大利亚)
在两个关系中都出现,是两个关系的交集。因此差操作就是从一个关系中去除和另一个关系的交集所得到的集合。
差操作不满足交换律。
笛卡尔积
笛卡尔积用来将两个关系连接起来,笛卡尔积的结果将两个关系中所有可能的元组组合起来。假设关系 R 的元组数目为 M,度数为 I,关系 S 的元组数目为 N,度数为 J,那么 R 和 S 进行笛卡尔积运算得到的新关系的元组数目为 M * N,度数为 I + J。
举个例子,有两个关系 R(学生)
和 S(课程)
:
姓名 | 学号 | 课程号 |
---|---|---|
Mary | s1 | c1 |
Jerry | s2 | c2 |
Mike | s3 | c2 |
课程名 | 课程号 |
---|---|
软件工程 | c1 |
软件测试 | c2 |
数据库系统原理 | c3 |
那么对 R 和 S 进行笛卡尔积的结果为:
姓名 | 学号 | 课程 | 课程号 |
---|---|---|---|
Mary | s1 | 软件工程 | c1 |
Jerry | s2 | 软件工程 | c1 |
Mike | s3 | 软件工程 | c1 |
Mary | s1 | 软件测试 | c2 |
Jerry | s2 | 软件测试 | c2 |
Mike | s3 | 软件测试 | c2 |
Mary | s1 | 数据库系统原理 | c3 |
Jerry | s2 | 数据库系统原理 | c3 |
Mike | s3 | 数据库系统原理 | c3 |
笛卡尔积用来将两个关系连接在一起,获取所有可能的结果,其是连接操作的基础。
选择操作
选择操作就是从一个关系中,选择出满足条件的元组。
如从上面的学生表中,选择出学号大于等于 2 的学生,结果为:
姓名 | 学号 | 地址 |
---|---|---|
Jerry | 2 | 澳大利亚 |
马云 | 3 | 中国 |
选择条件由与或非逻辑表达式构成。
投影操作
投影操作是从给定的关系中,选择出某些属性属性构成新的关系。如从学生表中投影出一个新的关系 R(姓名,地址)
:
姓名 | 地址 |
---|---|
Jerry | 澳大利亚 |
马云 | 中国 |
扩展操作
关系代数常用的扩展操作有交操作,Theta 连接操作,自然连接操作,外连接操作,除操作等。扩展操作可以由基础操作推导而来。
交操作
交操作用来从两个关系中,选择出同时存在于两个关系中的元组。如上面 R(学生)
和 S(教师)
进行交操作的结果为:
姓名 | 学号/教师号 | 地址 |
---|---|---|
Jerry | 2 | 澳大利亚 |
Theta 连接操作
Theta 连接操作会从两个关系的笛卡尔积中,选择出某个条件的元组,并去掉重复项。例如在上面笛卡尔积例子,选择出课程号不为 c1 并且学号不为 s1 的元组:
姓名 | 学号 | 课程 | 课程号 |
---|---|---|---|
Jerry | s2 | 软件测试 | c2 |
Mike | s3 | 软件测试 | c2 |
Jerry | s2 | 数据库系统原理 | c3 |
Mike | s3 | 数据库系统原理 | c3 |
连接操作一般和投影操作配合使用,比如从上面的结果集中投影出 R(姓名,课程)
:
姓名 | 课程 |
---|---|
Jerry | 软件测试 |
Mike | 软件测试 |
Jerry | 数据库系统原理 |
Mike | 数据库系统原理 |
Theta 连接操作中有个特殊的操作,叫做等值连接,即选择条件为判断是否相等。
自然连接操作
自然连接可以认为是一种特殊的等值连接,其要求两个关系具有相同的属性,并且判断条件为两个关系中的某两个相同属性的值相等。
自然连接是最常用的连接操作。
假如有两个关系 R(学生 )
和 S(班级)
:
姓名 | 学号 | 班级 |
---|---|---|
Jerry | s2 | 高二八班 |
Mike | s3 | 高三一班 |
Jerry | s2 | 初一二班 |
Mike | s3 | 初三一班 |
班级 | 班主任 |
---|---|
高二八班 | 马云 |
高三一班 | 刘东 |
初一二班 | 史柱 |
初三一班 | 李彦 |
对这两个关系进行自然连接的结果为:
姓名 | 学号 | 班级 | 班主任 |
---|---|---|---|
Jerry | s2 | 高二八班 | 马云 |
Mike | s3 | 高三一班 | 刘东 |
Jerry | s2 | 初一二班 | 史柱 |
Mike | s3 | 初三一班 | 李彦 |
外连接
外连接就是在自然连接的结果集中,将空值元组和没有匹配到的元素放入到结果集中。
假如有两个关系 R(学生 )
和 S(班级)
:
姓名 | 学号 | 班级 |
---|---|---|
Jerry | s2 | 高二八班 |
Mike | s3 | 高三一班 |
Jerry | s2 | |
Mike | s3 | 初三一班 |
班级 | 班主任 |
---|---|
高二八班 | 马云 |
高三一班 | 刘东 |
高三五班 | 陈天 |
史柱 |
首先对这两个关系进行自然连接:
姓名 | 学号 | 班级 | 班主任 |
---|---|---|---|
Jerry | s2 | 高二八班 | 马云 |
Mike | s3 | 高三一班 | 刘东 |
我们在自然连接的结果集中,机上空值元组和没有匹配到的元组:
姓名 | 学号 | 班级 | 班主任 |
---|---|---|---|
Jerry | s2 | 高二八班 | 马云 |
Mike | s3 | 高三一班 | 刘东 |
高三五班 | 陈天 | ||
Jerry | s2 | ||
史柱 |
以上就是外连接的结果,也叫做全外连接:保证两端的元素不丢失。对应的,还有左外连接和右外连接,左外连接会保证左侧的元素不丢失,右外连接会保证右侧的元素不丢失。
因此上面两个进行左外连接的结果为:
姓名 | 学号 | 班级 | 班主任 |
---|---|---|---|
Jerry | s2 | 高二八班 | 马云 |
Mike | s3 | 高三一班 | 刘东 |
Jerry | s2 |
进行右外连接的结果为:
姓名 | 学号 | 班级 | 班主任 |
---|---|---|---|
Jerry | s2 | 高二八班 | 马云 |
Mike | s3 | 高三一班 | 刘东 |
高三五班 | 陈天 | ||
史柱 |
除操作
除操作是对两个关系进行“除法”操作,要求“除数”关系是“被除数”关系的真子集。除操作会从“被除数”关系中,选择出一个新的关系,设为 N,N 也是 “被除数”关系的真子集。N 需要满足一个条件:
N 和“除数”关系的笛卡尔积是“被除数”关系的最大真子集。
好绕啊···
我们还是直接看例子吧。
假设有两个关系:R(A1,A2,A3)
和 S(A3)
:
A1 | A2 | A3 |
---|---|---|
a | b | c |
d | b | c |
a | e | c |
a | e | f |
d | b | f |
a | e | g |
a | e | h |
a | b | i |
A3 |
---|
c |
对 R 和 S 进行除操作,得到的结果为:
A1 | A2 |
---|---|
a | b |
d | b |
a | e |
如果 S 关系为:
A3 |
---|
c |
f |
那么对 R 和 S 进行除操作的结果为:
A1 | A2 |
---|---|
d | b |
a | e |
从上面的例子来看,除操作适用于“满足全部····”的查询。举个例子,从学生表中查询选择了所有课程或者选择了软件测试和软件工程这两门课程的学生。
假设存在一个关系 R(学生)
和 S(课程)
:
姓名 | 学号 | 课程号 |
---|---|---|
Jerry | s2 | c2 |
Mike | s3 | c2 |
Carry | s4 | c1 |
Lucy | s5 | c3 |
课程名 | 课程号 |
---|---|
软件工程 | c1 |
软件测试 | c2 |
数据库系统原理 | c3 |
现在我们要查询选择了软件测试这门课的所有学生,则被除数关系为 R(学生)
,除数关系为:
课程号 |
---|
c1 |
对两个关系进行除操作,得到的结果为:
姓名 | 学号 |
---|---|
Jerry | s2 |
Mike | s3 |
如果我们只需要获取学生的姓名,不需要学号这一列,那么可以再对结果集进行投影操作:
姓名 |
---|
Jerry |
Mike |
总结
本文介绍了关系代数以及关系代数中常用的基础操作和扩展操作,基础操作包括并,差,笛卡尔积,选择,投影,更名等,某些基础要做要求两个参与运算的关系具有并相容性。扩展操作可以由基础操作推导而来,可以完成更复杂的操作。
关系代数是 SQL 语言的基础,SQL 语言是在关系代数上的一层封装,目的是方便程序员使用。
关系代数的操作接受一个或多个关系作为输入,再输出一个新的关系,不同的关系操作可以进行相互的组合。例如可以先进行选择操作再进行投影操作,先进行自然连接操作再进行选择操作等等。根据不同的需求需要灵活的组合这些操作。
完。