寒哥管理的技术专题程序员iOS学习

代码是怎么一步步变成可执行文件的?

2017-04-29  本文已影响729人  花与少年_

这篇文章是关于Sunny大神在MDCC 2016 的 topic 《把玩编译器,Clang有意思》的学习笔记及实践。
相关链接:视频 PPT

Apple 编译器采用的是 Clang-LLVM 架构,Clang 作为编译器前端,LLVM 作为编译器后端,整体的架构如图:

编译器架构.png

采用这样的架构是因为,如果只有一个整体的编译过程,面对程序员编写的 M 种高级语言,面对不同机器所对应的 N 种可执行文件,我们需要 M*N 种编译器……
若是分为前后端,我们可以将 M 种高级语言编译为一个机器无关的中间代码,作为前后端的桥接语言,再交给不同编译器后端生成各种机器所需要的目标机器代码,大大简化了编译过程。

现在,我们来看代码是怎么一步步变成可执行文件的。

1.Preprocess - 预处理

处理‘#’开头的预处理指令,包括 import 头文件(将头文件内容逐字替换 import 语句)、macro(宏) 展开、条件预处理指令,删除注释,添加行号和文件名标识。

现在尝试预处理一个文件,看看是什么样子:

$clang -E main.m
预处理

...lots of codes


预处理

相关问题:每个头文件中都 import 基础库(Foundation等)或第三方库头文件,这些文件重复编译,代码量非常大,如上图而且不够整洁优雅。
优化:

使用@import关键字时

2.Lexical Analysis - 词法分析

将预处理后的代码文本拆成 Token 流,并不进行语义校验。

$clang -fmodules -fsyntax-only -Xclang -dump-tokens main.m 
//执行到词法分析这一步,并将 -dump-tokens 透传给编译器前端,将token打出来
代码被拆成了一个个Token

3.Semantic Analysis - 语法分析

由 Clang 中 Parser 和 Sema 配合完成

$clang -fmodules -fsyntax-only -Xclang -ast-dump main.m 
//生成抽象语法树
生成了花花绿绿的语法树

另外,这步之后,在我们Run一个工程时,如果选择Analyze,这里会进行

Static Analysis - 静态分析

找出一些非语法性错误、若需要隐式转换,会在语法树中插入相应的转换节点。

Analyze 非语法性错误

这里,我试图用 copy 修饰一个可变对象,这样会造成这个属性虽然叫 “mutableArray”,但是它存储着一个不可变的对象。

4.CodeGen - IR 代码生成

语法树从顶至下遍历,翻译成LLVM 中间代码,作为前后端的桥接语言,是Clang 编译器前端的输出,LLVM 编译器后端的输入。
中间代码一般已经非常接近目标代码了,但跟目标机器和运行时环境无关。
同时,一个重要的作用是与 OC Runtime 进行桥接

$clang -S -fobjc-arc -emit-llvm main.m -o main.ll
//生成中间代码
中间代码的生成

这里我们可以看到一些熟悉的身影,比如 @objc_msgSend...

5.Optimize - 优化

$clang -O3 -S -fobjc-arc -emit-llvm main.m -o main.ll
//可采用不同优化级别优化中间代码
可以看到,优化后代码量减少 在Xcode中可以设置优化级别

LLVM Bitcode - 生成字节码

字节码是一种包含执行程序、由一序列 op 代码/数据对组成的二进制文件,但与特定机器码无关,需要直译器转译后才能生成机器码,可以看作是包含一个执行程序的二进制文件。

$clang -emit-llvm -c main.m -o main.bc
//形成二进制流
二进制流

6. Assemble - 生成 Target 相关汇编

$clang -S -fobjc-arc main.m -o main.s
//生成汇编代码
汇编代码

Assemble - 生成Target相关Object(Mach-o)

$clang -fmodules -c main.m -o main.o    
//Mach-o 是苹果系统的目标文件
生成的main.o文件

可以看到,生成的目标文件有 Mach Header 头部、Load Commands 加载命令、Section 区域、 Relocations 重定位信息、Symbol 符号表、String字符串表等。

可以用MachoView来打开 .o 文件
MachoView GitHub

7. Link - 链接,生成 Executable 可执行文件

$clang main.m -o main
$./main

//TODO

Clang-LLVM编译过程.png

经过这一步步,我们用各种高级语言编写的代码就转换成了机器可以看懂可以执行的目标代码了✌️😉✌️

上一篇下一篇

猜你喜欢

热点阅读