OC底层原理04 - 内存字节对齐

2020-09-08 本文已影响0人卡布奇诺_95d2

什么是内存对齐

现代计算机中内存空间都是按照byte划分的，从理论上讲似乎对任何类型的变量的访问可以从任何地址开始，但实际情况是访问特定类型变量的时候经常从特定的内存地址访问，这就需要各种类型的数据按照一定的规则在空间上排列，而不是一个接一个的排放，这就是内存对齐。

内存对齐的原因

适用多平台
不是所有的硬件平台都能访问任意地址上的任意数据，某些平台只能在某些地址处取某些特定类型的数据，否则抛出硬件异常。
提高性能
数据结构应该尽可能的在自然边界上对齐，如果访问未对齐的内存，处理器需要做两次内存访问，而对齐的内存访问只需要做一次。

图解处理器如何读取内存数据

尽管内存是以字节为单位，但是大部分处理器并不是按字节来对存取内存的，它一般会以2字节、4字节、8字节、16字节甚至32字节为单位来存取内存，我们将这些存取单位称为存取粒度。
一般情况下，以8字节为存取粒度。当数据类型的长度小于指定的存取粒度时，以数据类型长度为存取粒度。
示例：当前内存中需要存储如下结构体：

struct LGStruct1 {
    char a;
    int b;
    double c;
}struct1;

内存未对齐

内存未对齐

假设当前1位置就是struct1的起始地址。
当需要读取a的值时，由于a的数据类型为char，占一个字节，此时可以一次读出a的值。

image.png
当需要读取b的值时，由于b的数据类型为int，占4个字节，此时先读取[1,4]位置这4个字节的值，然后再读取[5,8]位置这4个字节，再从这8个字节中获取[2,5]位置这4个字节的数据赋值给b。
image.png

当需要读取c的值时，c的数据类型为long，占8个字节，需要先读出[1,8]位置这8个字节，然后再读[9,16]位置这8个字节，再从16个字节中获取[6,13]位置这8个字节的数据赋值给c。

image.png
经过上述分析，当内存未对齐时，在读取一些数据时往往需要经过几次读取和复杂的分析，才能完整的获得某个数据，这显然不太好。
内存对齐

内存对齐

假设当前1位置就是struct1的起始地址。
当需要读取a的值时，由于a的数据类型为char，占一个字节，此时可以一次读出a的值。

image.png
当需要读取b的值时，由于b的数据类型为int，占4个字节，此时先读取[1,4]位置这4个字节的值，发现该值不是b的值，然后再读取[5,8]位置这4个字节，该值为b的值则赋值给b。
image.png

当需要读取c的值时，c的数据类型为long，占8个字节，需要先读取[1,8]位置这8个字节的值，发现该值不是c的值，然后再读[9,16]位置这8个字节，该值为c的值赋值给c。

image.png
由上述分析可以看出来，经过内存对齐之后，读取效率明显高出很多，因此内存对齐是很有必要的。

内存对齐的原则

既然内存对齐可以提高效率，那内存对齐需要遵循怎样的原则呢？

数据成员的对齐规则

结构体或联合的数据成员，第一个成员放在offset为0的地方，以后每个数据成员存储的起始位置要从该成员大小或者成员的子成员大小的整数倍开始。
以下通过不同案例进行分析
案例1：

struct LGStruct1 {
    double a;
    char b;
    int c; 
    short d;
}struct1;

a为第一个成员，放在offset为0的位置，且占8个字节；
b为char类型占1个字节，b需要放在1的整数倍位置，此时的offset为8，符合1的整数倍这个原则，因此b放在offset为8的位置；
c为int类型占4个字节，c需要放在4的整数倍位置，当前offset为9不是4的整数倍，此时需要使用占位符进行填充，当使用了3个占位符之后，offset为12，是4的整数倍，此时c放在offset为12的位置；
d为short类型占2个字节，c需要放在2的整数倍位置，当前的offset为16，是2的整数倍，因此d放在offset为16的位置；

image.png

案例2：

struct LGStruct2 {
    double a;
    int b; 
    char c; 
    short d;
}struct2;

a为第一个成员，放在offset为0的位置，且占8个字节；
b为int类型占4个字节，需要放在4的整数倍位置，此时offset为8，符合4的整数倍这个原则，因此b放在offset为8的位置；
c为char类型占1个字节，需要放1的整数倍位置，此时offset为12，符合1的整数倍这个原则，因此c放在offset为12的位置；
d为short类型占2个字节，需要放在2的整数倍位置，此时offset为13，不符合2的整数倍这个原则，使用占位符填充，当使用1个占位符之后，offset为14符合2的整数倍这个原则，因此d放在offset为14的位置；

image.png

总结：对数据成员进行内存对齐主要有2个关键点：1. 第一个成员放在offset为0的位置；2. 其它成员放在该成员大小的整数倍位置。

结构体作为成员的对齐规则

在数据成员完成各自对齐之后，结构（联合）本身也需要进行对齐，对齐将按照成员中最大数据长度的整数倍开始存储
案例1：

struct LGStruct3 {
    long c;
    char d;
}struct3;

struct LGStruct4 {
    int a;
    struct LGStruct3 b;
}struct4;

struct LGStruct4中含有struct LGStruct3的成员变量，此时struct LGStruct3的的起始存储位置必须是struct LGStruct3成员中最大数据长度的整数倍，此案例中struct LGStruct3的最大数据长度是long，即8个字节，因此，struct LGStruct3必须从8的倍数开始存储。

image.png

案例2：

struct LGStruct3 {
    int c;
    char d[10];
}struct3;

struct LGStruct4 {
    short a;
    struct LGStruct3 b;
}struct4;

struct LGStruct3 b是struct LGStruct4的成员变量，struct LGStruct3的起始位置必须是struct LGStruct3成员中最大数据长度的整数倍，此案例中struct LGStruct3的最大数据长度为int，占4个字节，因此struct LGStruct3 b的起始位置必须是4的整数倍。

image.png

结构体整体对齐规则

结构体的总大小，即sizeof的结果，必须是其内部最大成员的整数倍，不足需要补齐
案例1：

struct LGStruct1 {
    double a;
    int b;
    char c;
    short d; 
}struct1;
struct LGStruct2 {
    int a;
    char b[10];
}struct2;
struct LGStruct3 {
    struct LGStruct1 a;
    short b;
    struct LGStruct2 c;
    int d;
}struct3;

struct LGStruct1

根据结构体成员变量对齐原则，a的offset为0，占8个字节；b的offset为8，占4个字节；c的offset为12，占1个字节；d的offset为14，占2个字节；成员变量共占16个字节。
其成员中最大的数据类型是double，即8字节，因此sizeof(struct1)为8的整数倍。
因此，struct LGStruct1的大小为16字节。

struct LGStruct2

根据结构体成员变量对齐原则，a的offset为0，占4个字节；b的offset为4，占1个字节，由于是10个char类型的数组，因此数组占10个字节；成员变量共占16个字节。
其成员最大的数据类型是int，即4个字节，因此sizeof(struct2)为4的整数倍。
因此，struct LGStruct2的大小为16字节。

struct LGStruct3

根据结构体成员变量对齐原则，a的offset为0，占16个字节；b的offset为16，占2个字节；c的offset为sizeof(int)的整数倍，即20，占16个字节；d的offset为36，占4个字节；成员变量共占40个字节。
其成员最大的数据类型是double，即struct1的成员8个字节，因此sizeof(struct3)为8的整数倍。
因此，struct LGStruct3的大小为40字节。