LLVM探索
LLVM的概念
日常开发过程我们的开发工具或多或少都跟LLVM
扯得上一点关系,那么什么是LLVM
呢?它有什么作用呢?首先我们需要明白两个概念解释型语言
、编译型语言
。解释型语言
:当它读到当前代码就立即执行如python
。编译型语言
:他需要先把它翻译成CPU
可以读懂的二进制文件才可以执行。LLVM
也称为架构编译器,它是用C++编写的,主要作用是用于优化任意程序编写的程序编译时间、链接时间、运行时间和空闲时间,对开发者开放并兼容已有的脚本。
编译器设计
上图为传统的编译器设计,它是一种前后端分离的一种模式。
编译器前端(Frontend)
:解析源代码。它会进行词法分析、语法分析、语义分析,源代码错误检查,并构建抽象语法树(AST),LLVM
的前端还会生成中间代码(IR)。优化器(Optimizer)
:负责各种优化,改善代码的运行时间,如优化代码中的冗余计算。后端(Backend)/代码生成器(CodeGenerator)
:将优化后的代码转化为二进制文件并映射到目标指令集。
iOS的编译器架构
OC、C、C++使用的编译器前端是Clang,Swift使用的编译器前端是Swift,后端都是用的LLVM。
LLVM的优点
LLVM的设计,使用通用的代码表示形式IR,它是用来在编译器中表示代码的形式。LLVM可以为任何任何语言独立的编写前端,并为任意的硬件架构编写后端。
Clang
Clang是LLVM项目中的一个子项目。它是一个轻量级的编译器,它是负责编译C、C++, OC语言的编译器,它在LLVM架构中的编译器的前端。
终端输入open /usr/bin
可以查看到编译器Clang
编译流程分析
-
首先创建一个.m文件,并cd到当前文件路径
- 终端输入
clang -ccc-print-phases main.m
,结果终端会打印如下
0
:输入文件,找到源文件。
1
:预处理阶段,处理宏的替换,头文件的引入。
2
:编译阶段,词法分析、语法分析、最终生成IR。
3
:后端:此阶段LLVM通过一个一个的pass去优化,最终生成汇编代码。
4
:生成目标文件。
5
:链接,链接需要的的动静态库,生成可执行文件。
6
:通过不同的架构生成对应的可执行文件。
预处理
终端执行clang -E main.m
执行完成后,我们可以看到头文件被导入和宏被替换了。
编译
什么叫词法分析
呢?预处理阶段会将代码切成一个一个的token,如括号、等号、字符串等,这个过程称为词法分析
。
什么叫
语法分析
呢?语法分析
在词法分析之后,它主要是验证语法是否正确。在词法的基础之上把单词序号合成语法短语,如程序,表达式等,然后将所有的节点组成语法树(AST)。它主要分析程序在结构上是否正确。终端输入
clang -fmodules -fsyntax-only -Xclang -ast-dump main.m
输出结果如下图
生成IR(intermediate representation)
完成上述步骤代码生成器会将语法树自上到下逐步翻译成IR代码。
终端输入clang -S -fobjc-arc -emit-llvm main.m
可以查看IR代码
执行完成后可以发现目录下生成了一个.ll的文件
oc代码在这一步会进行runtime的桥接,property合成,ARC处理
- IR的基本语法
@
:全局标识
%
:局部标识
alloca
:开辟内存空间
align
: 内存对齐
i32
:32个bit,4个字节
store
:写入内存
load
:读取数据
call
:调用函数
ret
:返回
IR的优化
LLVM的优化级别分别是-O0 、-O1、-O2、-O3、-Os
终端指令clang -Os -S -fobjc-arc -emit-llvm main.m -o main.ll
bitCode
开启bitcode后xcode会对代码进一步优化,并生成.bc的中间代码。
终端指令clang -emit-llvm -c main.ll -o main.bc
可以优化IR代码生成.bc代码
生成汇编代码
终端指令clang -S -fobjc-arc main.bc -o main.s
或clang -S -fobjc-arc main.ll -o main.s
可以将将.bc或者.ll代码生成汇编代码。当然生成的汇编代码也可以通过终端指令clang -Os -S -fobjc-arc main.m -o main.s
进一步优化
生成目标文件
目标文件的生成,是由汇编器以汇编代码作为输入,将汇编代码转化成机器代码,最后输出成目标文件。
终端指令clang -fmodules -c main.s -o main.o
可以将汇编文件输出成目标文件。
main.o文件中的符号可以通过nm命令查看
终端指令xcrun nm -nm main.o
undefined
: 表示在当前文件暂时找不到符号_printf。external
:表示这个符号外部可以访问。
生成可执行文件
连接器最终将编译生成的.o文件和.dylib.a文件,生成mach-o文件。
终端指令clang main.o -o main
同理我们也可以通过nm查看链接之后的可执行文件的符号。
终端指令xcrun nm -nm main
总结
- 编译流程:
输入代码->展开预处理->词法分析(token)->语法分析 ->生成IR ->IR优化 ->生成汇编代码 ->生成目标文件 ->链接动静态库生成可执行文件。 -
typedef
:不做预处理,不是预处理指令。 - 优化等级不是越高越好,太高会把有用代码优化掉。
-
.o
文件不能执行,需要链接外部库,链接只是打标记。 -
LLVM
优点:前后端分离,扩展性非常强。 -
LLVM
会影响编译速度,优化可执行文件可以提高编译速度。 - 不同的节点上,还能进行优化。