Linux原理解析——内存寻址
①内存地址表示方法
内存地址分为三种,分别为逻辑地址、线性地址(虚拟地址)、物理地址
逻辑地址:由段地址与偏移地址表示。偏移地址的表示方法直接是32bit的数值表示。而段地址的表示需要由段选择符、段描述表来表示。具体见《深入理解Linux内核,CN版》45页。
线性地址:可以从0x00000000表示到0xffffffff的虚拟地址,每一个进程,以及内核都有自己的线性地址,线性地址可以通过一定的方式转化为物理地址,方法在后面详细解释。
物理地址:是内存中具体的地址空间。
②三种地址的关系
在硬件层,可以通过内存控制单元(MMU)将逻辑地址转化为线性地址,再将线性地址转化为分页地址。
从逻辑地址转化为线性地址的过程中需要cs/ds寄存器去保存段选择符,用gdtr寄存器去保存段描述表的位置,然后再加上offset偏移地址就可以算出线性地址。其中段描述表在整个内存中仅有一张。(仅考虑了全局段描述表)
从线性地址转化为物理地址的过程,首先需要寄存器cr3来保存页目录的地址,然后页目录中保存了页表的地址,以及一些其他的信息。页表中的数据+offset就是物理地址。具体见《深入理解Linux内核,CN版》52页。
③内核页表
内核有自己的页表,它在计算机启动时就进行分配。具体过程如下。
由于在计算机启动时,在内存中不存在页表,但是在计算机启动过程中需要执行指令/访问数据,这都需要用到地址空间,因此在计算机启动时会使用一种叫实模式的内存访问方式(与保护模式相对)其原来就是直接利用物理地址进行查找内存。
而在Linux内核的代码段中,有个固定位置的临时全局目录,我们可以将其装入内存中,然后通过pagetable_init()函数建立起页表项。具体见《深入理解Linux内核,CN版》75页。这样就建立起了内核页表。之后就可以进入保护模式通过内核页表与虚拟地址来访问数据了。
④以上内容中理解的核心点。
内存虚拟化是如何实现的?
对于进程来说,每一个进程都有一个cr3的值,通过cr3这个值,以及建立的页目录,页表就可以进行对进程进行内存的虚拟化。实现方法如下,当一个进程在运行时,cr3寄存器就保存着这个进程的cr3的值,当需要访问内存空间时,线性地址可以通过存在的页目录与页表来访问到物理地址,简单来说,通过这个cr3,以及页目录,页表,就是完成线性地址到物理地址的映射。并且每个进程都有自己的cr3,因此每个进程都可以从0x00000000~0xffffffff映射到自己的物理地址中。
如果每个进程都有4G的内存空间,那么物理地址不就会发生空间不够的情况吗?
线性地址到物理地址的映射是动态分配的,也就是说。虽然线性地址都有4G的空间,但是如果4G的内存空间均没有使用,那么其对应的物理地址也就会很少。
对于每种计算机架构都有逻辑地址到线性地址的转换吗?
仅有80x86架构才会有。Linux并不喜欢内存的分段模式。
如果实现实模式与保护模式的无缝对接?
在实模式下,0x0000000-0x007fffff对应的物理地址为0x0000000-0x007fffff,在保护模式下0xc0000000-0xc07fffff对应的物理地址为0x0000000-0x007fffff。即实现了二对一的情况,因此在实模式与保护模式的过度阶段,无论直接使用物理地址还是使用线性地址都可以对于与相同的地址空间,从而实现了无缝对接。