代码是怎么一步步变成可执行文件的？

2017-04-29 本文已影响729人花与少年_

这篇文章是关于Sunny大神在MDCC 2016 的 topic 《把玩编译器，Clang有意思》的学习笔记及实践。
相关链接：视频 PPT

Apple 编译器采用的是 Clang-LLVM 架构，Clang 作为编译器前端，LLVM 作为编译器后端，整体的架构如图：

编译器架构.png

采用这样的架构是因为，如果只有一个整体的编译过程，面对程序员编写的 M 种高级语言，面对不同机器所对应的 N 种可执行文件，我们需要 M*N 种编译器……
若是分为前后端，我们可以将 M 种高级语言编译为一个机器无关的中间代码，作为前后端的桥接语言，再交给不同编译器后端生成各种机器所需要的目标机器代码，大大简化了编译过程。

现在，我们来看代码是怎么一步步变成可执行文件的。

1.Preprocess - 预处理

处理‘#’开头的预处理指令，包括 import 头文件(将头文件内容逐字替换 import 语句)、macro(宏) 展开、条件预处理指令，删除注释，添加行号和文件名标识。

现在尝试预处理一个文件，看看是什么样子：

$clang -E main.m

预处理

...lots of codes

预处理

相关问题：每个头文件中都 import 基础库(Foundation等)或第三方库头文件，这些文件重复编译，代码量非常大，如上图而且不够整洁优雅。
优化：

可用pch文件将这些库文件预编译，加快编译速度。
或是当引入苹果自己的库时，可采用 @import 关键字引用这些库，告诉编译器去使用 modules 的引用形式。苹果已经将一些基础库进行了封装，生成一个已编译的 modules 文件列表，我们编译时，会首先从已编译文件里面寻找，若已存在这个编译文件，直接使用；若没有，再添加进来进行编译。

使用@import关键字时

2.Lexical Analysis - 词法分析

将预处理后的代码文本拆成 Token 流，并不进行语义校验。

$clang -fmodules -fsyntax-only -Xclang -dump-tokens main.m 
//执行到词法分析这一步，并将 -dump-tokens 透传给编译器前端，将token打出来

代码被拆成了一个个Token

3.Semantic Analysis - 语法分析

由 Clang 中 Parser 和 Sema 配合完成

验证语法是否正确
提示各种错误警告提示
根据设置语言的语法，形成语义结点，并将所有节点组合形成抽象语法树AST

$clang -fmodules -fsyntax-only -Xclang -ast-dump main.m 
//生成抽象语法树

生成了花花绿绿的语法树

另外，这步之后，在我们Run一个工程时，如果选择Analyze，这里会进行

Static Analysis - 静态分析

找出一些非语法性错误、若需要隐式转换，会在语法树中插入相应的转换节点。

Analyze

非语法性错误

这里，我试图用 copy 修饰一个可变对象，这样会造成这个属性虽然叫 “mutableArray”，但是它存储着一个不可变的对象。

4.CodeGen - IR 代码生成

语法树从顶至下遍历，翻译成LLVM 中间代码，作为前后端的桥接语言，是Clang 编译器前端的输出，LLVM 编译器后端的输入。
中间代码一般已经非常接近目标代码了，但跟目标机器和运行时环境无关。
同时，一个重要的作用是与 OC Runtime 进行桥接

内存结构的生成：
- Class/Meta Class/Protocol/Category 生成并存放在指定section中，_DATA 或 _objc_classrefs
- Method/Ivar/Property 生成
- 组成method_list/ivar_list/property_list 并填入Class
为每个 Ivar 合成偏移值常量，其地址为对象的基地址 + 偏移量
将语法树中的ObjCMessageExpr翻译成相应objc_msgSeng，对super关键字的调用翻译成objc_msgSendSuper
根据修饰符strong/weak/copy/atomic 合成@property，自动实现setter/getter，处理@synthesize
生成block_layout数据结构
变量的capture _block _weak
生成_block_invoke 函数
分析对象引用关系，插入ARC代码
自动调用[super dealloc]
为每个拥有ivar 的 Class 合成 .cxx_destructor 方法来自动释放类的成员变量
自动释放池的管理，将ObjcAutoreleasePoolStmt 转译成 objc_autoreleasePoolPush/Pop

$clang -S -fobjc-arc -emit-llvm main.m -o main.ll
//生成中间代码

中间代码的生成

这里我们可以看到一些熟悉的身影，比如 @objc_msgSend...

5.Optimize - 优化

$clang -O3 -S -fobjc-arc -emit-llvm main.m -o main.ll
//可采用不同优化级别优化中间代码

可以看到，优化后代码量减少

在Xcode中可以设置优化级别

LLVM Bitcode - 生成字节码

字节码是一种包含执行程序、由一序列 op 代码/数据对组成的二进制文件，但与特定机器码无关，需要直译器转译后才能生成机器码，可以看作是包含一个执行程序的二进制文件。

$clang -emit-llvm -c main.m -o main.bc
//形成二进制流

二进制流

6. Assemble - 生成 Target 相关汇编

$clang -S -fobjc-arc main.m -o main.s
//生成汇编代码

汇编代码

Assemble - 生成Target相关Object(Mach-o)

$clang -fmodules -c main.m -o main.o    
//Mach-o 是苹果系统的目标文件

生成的main.o文件

可以看到，生成的目标文件有 Mach Header 头部、Load Commands 加载命令、Section 区域、 Relocations 重定位信息、Symbol 符号表、String字符串表等。

一个 mach_header 标记一些元信息，比如架构、CPU、大小端等信息
多个 Load Command 表示如何加载每个段的信息
多个 Segment 及 Section 包含每个段自身的信息，包括数据、代码等
- Common Segments 段包含
  __PAGEZERO : Catch 访问NULL指针的非法操作段
  __TEXT : 只读数据，只读常量，C strings
  __DATA : 全局/静态变量
  __LINKEDIT : 包含需要被动态连接器使用的信息，包括符号表、字符串表、重定位表项

可以用MachoView来打开 .o 文件
MachoView GitHub

7. Link - 链接，生成 Executable 可执行文件

$clang main.m -o main
$./main

//TODO

Clang-LLVM编译过程.png

经过这一步步，我们用各种高级语言编写的代码就转换成了机器可以看懂可以执行的目标代码了✌️😉✌️