Mach-o文件格式简明解析
Mac OS 及 iOS 支持的文件类型有三种
1、以#!开头的脚本文件
2、通用二进制文件 universal binary(胖二进制文件)
3、Mach-o格式文件。
胖二进制文件的结构
胖二进制文件可以看作是多个mach-o文件的聚合体。我们APP打包所得到的.app文件中就包含一个通用的胖二进制文件。其结构如图。
在/usr/include/mach-o/fat.h
,定义了各字段的含义。
Magic字段是我们所说的魔数(文件结构),加载器通过这个数值来判断当前文件是什么样的文件。主要是区分32位与64位。
32位是0xcafebabe
,64位是0xcafebabf
。
nfat_arch 字段表明当前二进制文件包含了多少种不同架构的Mach-o 文件
fat_header后面跟进的是 fat_arch文件。有多少个不同架构的mach-o文件就会有多少fat__arch文件。用于说明mach-o文件的大小支持的 cpu架构及偏移等。即fat_arch和mach-o是一一对应的。
fat_arch 字段含义
cputype cpu 类型
cpusubtype 机器 标示符
offset 当前架构在这个文件的偏移
size 当前架构在文件中的大小
align 对齐方式
文件结构图
WX20190327-153510@2x.png由结构图可知,apple只是将不同架构的文件并排放在一起。然后在头部添加相关描述信息而已,简单粗暴。
Mach-o 文件的结构
Mach-o文件主要三部分组成
1、header
2、loadcommands
3、data数据区
结构图如下:
Mach-o header
文件结构字段如图
相关字段含义如下
magic 魔数,用于类型判断
cputype cpu 类型
cpusubtype 机器标示符
filetype 文件类型
ncmds loadcommands的数量
sizeofcmds loadcommands的总大小
flags 动态连接器标志
reserved 保留
Mach-o load commands
该部分是mach-o文件中最重要的一个部分,紧跟header之后。
cmd 为command的类型
cmdsize 为所有command的大小
在/usr/include/mach-o/loader.h
中同时说明了cmd所包含的类型,如下图所示
每个类型都有对应的说明,这里就不一一翻译了。我们以LC___SEGMENT 为例举例说明。想要了解更多可以参考这篇文章.
对于加载命令是LC__SEGMENT而言,它指定了内核是如何设置新运行的进程的内存空间,在/usr/include/mach-o/loader.h
也可以找到头文件.如图所示
由于有了LC_SEGMENT命令。对于每一个Segment,将文件中偏移量为fileOff长度为filesize的文件内容加载到虚拟地址为vmaddr的位置,长度为vmsize, 页面的权限通过initprot来初始化(比如设定读/写/执行, 段的保护级别可以动态设置最大不超过maxprot。
常见的segment有以下几个
1、__TEXT 代码段
2、__PAGEZERO 空指针陷阱
3、DATA 数据段
4、__LINKEDIT 包含需要被动态连接器使用的信息,包括符号表、字符串表、重定位项表等。
section介绍
我们可以使用otool -v -l test.out | open -f
命令对mach-o文件进行转换输出的文档如下
所以可以发现整体的文件结构如图所示
一点小知识
1、在/usr/include/mach-o/loader.h
文件我们可以发现32位和64位的魔法值宏定义不是理所当然的一个,而是两个例如32位的宏定义是0xfeedface
与0xcefaedfe
。第一个是我们所熟知的,为什么会有第二个呢?这实际上数据大小端模式的体现。大端是指数据的高字节保存在内存的低地址中,而数据的低字节保存在内存的高地址中;小端模式,是指数据的高字节保存在内存的高地址中,而数据的低字节保存在内存的低地址中,这种存储模式将地址的高低和数据位权有效地结合起来,高地址部分权值高,低地址部分权值低。之所以会有这种区别是跟计算机系统有关,具体我们就不深入,有兴趣的同学可以找相关资料看一看。