Linux内存寻址——分页与分段
2020-09-12 本文已影响0人
睡不醒的大橘
物理地址与虚拟地址
-
物理地址
,也叫实地址、二进制地址,它是在地址总线上,以电子形式存在的,使得数据总线可以访问主存的某个特定存储单元的内存地址。 - 在早期的计算机中,进程直接访问物理内存,但这种策略带来了如下问题:
- 内存使用效率低。有内存碎片的问题。
- 进程地址空间不隔离。一个进程中的代码可以更改正在由另一进程或操作系统使用的物理内存。
- 运行的地址不确定。由于操作系统给进程分配的物理地址是不确定的,而某些硬件是需要在固定的地址才能运行。
- 因此现代操作系统在进程和物理地址间加入了
虚拟地址
来解决以上问题。 - CPU芯片中的
内存管理单元(MMU)
负责将虚拟地址映射为物理地址。 - 操作系统采用
分段
和分页
两种方式来管理虚拟地址和物理地址间的关系。分段可以给每一个进程分配不同的线性地址空间
,分页可以把同一线性地址空间映射到不同的物理空间
。
分段机制
分段机制
-
分段(Segmentation)机制
就是把虚拟地址空间中的虚拟内存组织成一些长度可变的称为段的内存块单元。不同的段有不同的属性,分别用于存放程序的代码、数据和堆栈,或者系统数据结构等。
段
- 每个段是由一个8字节的
段描述符(Segment Descriptor)
表示。它的参数包括:
段首字节的线性地址(Base),段最后一个内存单元的偏移量,即段的长度(Limit),段类型(Type),段是否在主存中(P),是系统段还是代码或数据段(S),特权级(DPL)等。 - 段描述符放在
全局描述符表(GDT)
或局部描述符表(LDT)
中 - GDT在主存中的地址和大小存放在gdtr控制寄存器中,当前正被使用的LDT地址和大小放在ldtr控制寄存器中。
段选择符
-
逻辑地址
由16位的段选择符(Segment Selector)
和32位偏移量(offset)
两部分组成。 - 段选择符是段的唯一标识,任意段选择符包含3个字段:
index
:指定了放在GDT或LDT中的相应段描述符的索引
TI
: 指明段描述符实在GDT(TI=0)或在LDT(TI=1)中
RPL
: 请求者权限级
逻辑地址到线性地址的转换
- 通过逻辑地址中 段选择符的TI 判断描述符是在GDT还是LDT中
- 段描述符地址 = GDT/LDT首地址 + index * 8
- 线性地址 = 段描述符地址 + 偏移量
Linux中的分段
- Linux中所有段的段基地址Base都是0X00000000,Limit都是0xffffffff。因此Linux下逻辑地址与线性地址是一致的,即逻辑偏移量的值与对应线性地址的值一致。某种意义上绕过了分段机制。
- 所有进程因此共享同一组线性地址。
分页机制
分页机制
-
分页(Paging)机制
在分段机制之后进行的,它进一步将线性地址转换为物理地址。 - 分页把线性地址分成以固定长度为单位的组,这样一个连续并且尺寸固定的内存空间称为
页(Page)
。也把物理地址页分成以固定长度为单位的组,称为物理页
或页框(page frame)
。在 Linux 下,每一页和物理页的大小为4KB
。 - Linux对进程的处理很大程度上依赖于分页,实上,线性地址到物理地址的自动转换使下面的设计目标变得可行:
- 给每一个进程分配一块不同的物理地址空间,这确保了可以有效地防止寻址错误。
- 区别页(即一组数据)和页框(即主存中的物理地址)之不同。这就允许存放在某个页框中的一个页,然后保存到磁盘上,以后重新装入这同一页时又被装在不同的页框中。
页表
- 把线性地址映射到物理地址的数据结构称为
页表(page table)
。页表存放在主存中,并在启用分页单元之前必须由内核对页表进行适当的初始化。
-
但这种方式会带来空间上的缺陷,例如在32位的环境下,虚拟地址空间共有4GB,包括 4GB/4KB = 2^20,约100万个页,页表中每个映射项需要 4 个字节大小来存储,整个页表就需要4MB内存空间。而每个进程都是有自己的虚拟地址空间的,也就说都有自己的页表。这就需要很多的内存了。由于页表本身需要在内存中是连续分布的,而且即便没有使用到的页,也会占用一个entry。
-
为解决该问题, 多级分页模型被提出:
- 一般来说进程实际使用的页只占4G地址空间中的一小部分,其分布是稀疏的。一级页表就可以覆盖整个 4GB 虚拟地址空间,但如果某个一级页表的页表项没有被用到,也就不需要创建这个页表项对应的二级页表了。
- 把二级分页再推广到多级页表,页表占用的内存空间就能更少了
Linux四级分页
- Linux采用了四级分页模型,4种页表为:
- 页全局目录(Page Global Directory):包含若干页上级目录的地址;
- 页上级目录(Page Upper Directory):包含若干页中间目录的地址;
- 页中间目录(Page Middle Directory):包含若干页表的地址
- 页表(Page Table):每一个页表项指向一个页框
线性地址因此被分成五个部分:
进程页表
- 进程地址空间由进程可寻址的虚拟内存组成。每一个进程有一个32位或64位的独立连续空间。空间的具体大小取决于体系结构。
- 进程只能访问有效内存区域内的内存地址。如果一个进程访问了不在有效范围中的内存区域,或以不正确的方式访问了有效地址,内核将会终止该进程,并返回“段错误”信息。
- x86 32 位系统里,一个进程拥的线性地址空间被分成两部分:
- 从0×00000000到0xbfffffff的线性地址,无论进程运行在用户态还是内核态都可以寻址。
- 从0xc0000000到0xffffffff的线性地址,只有内核态的进程才能寻址。
即进程的第4个G保留给内核,前3个G可供内核和用户程序同时访问。
- Linux采用
请求调页(demand paging)
的内存分配策略。让进程可以在它的页还没有在内存时就开始执行。当进程访问一个不存在的页时,MMU产生一个异常。异常处理程序找到受影响的内存区域,分配一个空闲的页,并用适当的数据把它初始化。同理,进程调用malloc()或者brk()系统调用动态的请求内存时,内核仅仅修改进程的堆内存区的大小,只有试图引用进程的虚拟内存地址而发生异常时,才给进程真正分配页框。 - 当一个父进程创建子进程时,采用了
写时复制
的内存分配策略。当一个新进程被创建时,父进程仅仅把父进程的页框赋给子进程的地址空间,并把这些页框标记为只读,一旦父或子进程试图修改页中的内容时,一个异常就会产生。异常处理程序把新页框赋给受影响的进程,并用原来页中的内容初始化新页。