内存对齐原理
内存对齐之前需要掌握的一张图
不同类型占用的字节图.png内存对齐的目的
对于程序而言,一个变量的数据存储范围是在一个寻址步长范围内的话,这样一次寻址就可以读取到变量的值,如果是超出了步长范围内的数据存储,就需要读取两次寻址再进行数据的拼接,效率明显降低了。例如一个double类型的数据在内存中占据8个字节,如果地址是8,那么好办,一次寻址就可以了,如果是20呢,那就需要进行两次寻址了。这样就产生了数据对齐的规则,也就是将数据尽量的存储在一个步长内,避免跨步长的存储,这就是内存对齐。在32位编译环境下默认4字节对齐,在64位编译环境下默认8字节对齐。
a. 程序的执行效率提高
现代处理器一般都有多个级别的高速缓存,处理器访问这些高速缓存里的数据的效率要比访问内存里的数据效率高得多(就像处理器访问内存里的数据,比访问磁盘里的数据效率高得多一样。)。
就像上面介绍以的一样,一般来说,CPU 总是以字大小(32 位处理器上常常为 4 个字节)访问数据,所以如果数据没有内存对齐,CPU 访问这些数据时,可能就需要执行更多次的读取操作才行。在这样的机器上,读取 2 个字节数据往往比读取 4 个字节数据慢得多。
b. 访问范围提高
访问范围提高
对于任意给定的地址空间,如果体系架构可以确定 2 个 LSB 总是 0(例如 32 位机器),那么它可以访问 4 倍多的内存(2 个位能够表示 4 个不同状态)。从一个地址中去掉 2 个 LSB,将得到 4 字节的内存对齐,或者说“跨距”,因为地址每增加一,它就有效的增加 bit 2,而不是 bit 0。(鉴于低 2 位总是 00)
这甚至会影响系统的物理设计:如果地址总线的需要少 2 位,CPU 上的管脚就可以少 2 个。
c. 原子性的保障
前面提到 CPU 每次访问数据的宽度是一个字,如果C语言程序中的数据总是内存对齐的,那么 CPU 访问数据总是原子性的,这对于许多无锁数据结构和其他并发需求的正确操作至关重要。
对齐规则
规则:
1、数据成员对齐规则:结构(struct)(或联合(union))的数据成员,第一个数据成员放在offset为0的地方,以后每个数据成员的对齐按照#pragma pack指定的数值和这个数据成员自身长度中,比较小的那个进行。
2、结构(或联合)的整体对齐规则:在数据成员完成各自对齐之后,结构(或联合)本身也要进行对齐,对齐将按照#pragma pack指定的数值和结构(或联合)最大数据成员长度中,比较小的那个进行。
3、结合1、2可推断:当#pragma pack的n值等于或超过所有数据成员长度的时候,这个n值的大小将不产生任何效果。
#pragma pack其实就是指定内存对齐系数,如1,2,4,8,16。xcode默认的对齐系数是8.
例子
求以下两个结构体的字节大小
typedef struct {
int a; //4字节
int b; //4字节
char c; //1字节
double d; //8字节
char e[7]; //7字节
} demoStruct1;
typedef struct {
int a; //4字节
int b; //4字节
char c; //1字节
char e[7]; //7字节
double d; //8字节
} demoStruct2;
NSLog(@"%lu -- %lu", sizeof(demoStruct1), sizeof(demoStruct2));
打印结果
32 -- 24
分析如下
首先demoStruct1,起始offset为0
a,int类型,4个字节,<8,按4对齐,存放位置是[0,3]
b,int类型,4个字节,<8,按4对齐,存放位置是[4,7]
c,char类型,1个字节,<8,按1对齐,存放位置是[8,8]
d,double类型,8个字节,=8,按8对齐,当前位置不够,先补齐[9,15],然后存放,存放位置是[16,23]
e[7],char数组类型,7个char的字节,<8,按1对齐,存放位置是[24,30]
最后,补齐为8的整数倍,即补上[31,31]
综合:使用位置是[0,31] 占用字节数为32
再分析demoStruct2,起始offset为0
a,int类型,4个字节,<8,按4对齐,存放位置是[0,3]
b,int类型,4个字节,<8,按4对齐,存放位置是[4,7]
c,char类型,1个字节,<8,按1对齐,存放位置是[8,8]
e[7],char数组类型,7个char的字节,<8,按1对齐,存放位置是[9,15]
d,double类型,8个字节,=8,按8对齐,存放位置是[16,23]
综合:使用位置是[0,23] 占用字节数为24
适当的调整变量类型或位置,有助于提升对内存的利用率