iOS_LLVM
2018-08-16 本文已影响24人
Lin__Chuan
LLVM 是一个模块化和可重用的编译器和工具链技术的集合,创始人是 Chris Lattner,也是Swift之父
Clang 是 LLVM 的子项目,是 C,C++ 和 Objective-C 编译器,因为多模块的复用,所以提供了惊人的快速编译,比 GCC 快3倍。
LLVM的子项目
-
LLVM Core
提供了一个现代的源代码和目标独立优化器, 以及许多流行的 CPU (甚至是一些不太常见的处理器) 的汇编代码生成支持。 -
Clang
一个 C/C++/Objective-C 编译器,致力于提供令人惊讶的快速编译,极其有用的错误和警告信息,提供一个可用于构建很棒的源代码级别的工具。 -
Dragonegg
GCC 插件,可将 GCC 的优化和代码生成器替换为 LLVM 的相应工具。 -
LLDB
基于LLVM提供的库和Clang构建的优秀的本地调试器。 -
libc++、libc++ ABI
符合标准的,高性能的C++标准库实现,以及对 C++11 的完整支持。 -
compiler-rt
针对 __fixunsdfdi 和其他目标机器上没有一个核心 IR(intermediate representation) 对应的短原生指令序列时,提供高度调优过的底层代码生成支持。 -
OpenMP
Clang 中对多平台并行编程的runtime支持。 -
Vmkit
基于 LLVM 的 Java 和 .NET 虚拟机实现。 -
Polly
支持高级别的循环和数据本地化优化支持的 LLVM 框架。 -
libclc
OpenCL 标准库的实现 -
Klee
基于 LLVM 编译基础设施的符号化虚拟机 -
SAFECode
内存安全的C/C++编译器 -
lld
Clang/LLVM 内置的链接器
传统的编译器架构
编译器架构.pngFrontend
: 前端, 词法分析, 语法分析, 语义分析, 生成中间代码Optimizer
: 优化器, 中间代码优化Backend
: 后端, 生成机器码
LLVM架构
image.png- 不同的前端后端使用统一的中间代码
LLVM Intermediate Representation (LLVM IR)
- 如果需要支持一种新的编程语言,那么只需要实现一个新的前端
- 如果需要支持一种新的硬件设备,那么只需要实现一个新的后端
-
LLVM
现在被作为实现各种静态和运行时编译语言的通用基础结构(GCC家族、Java、.NET、Python、Ruby、Scheme、Haskell、D等)
Clang与LLVM
Clang.png1. App编译过程
文件: main.m
#include <stdio.h>
#define Num 10
int main(int argc, const char * argv[]) {
int a = 10;
int b = 20;
int c = a + b + Num;
return 0
}
在命令行中输入
通过命令可看到编译文件需要经历的几个过程
$ clang -ccc-print-phases main.m
image.png
- 预编译处理
主要包括宏的替换, 头文件的导入,也包含如下
“#define”
“#include”
“#indef”
注释
“#pragma”
查看preprocessor(预处理)的结果
$ clang -E main.m
image.png
- 词法分析
编译器会将代码切成一个个Token,如下几类
- 关键字:语法中的关键字,if else while for 等。
- 标识符:变量名
- 字面量:值,数字,字符串
- 特殊符号:加减乘除等符号
$ clang -fmodules -E -Xclang -dump-tokens main.m
image.png
- 语法分析
将 token 先按照语法, 组合成语义生成 VarDecl 节点,然后将这些节点按照层级关系构成抽象语法树 Abstract Syntax Tree (AST)
$ clang -fmodules -fsyntax-only -Xclang -ast-dump main.m
image.png
image.png
- LLVM IR中间代码生成.
- CodeGen 会负责将语法树自顶向下遍历逐步翻译成 LLVM IR,
IR 是编译过程的前端的输出, 后端的输入 - 将语法树翻译成 LLVM IR 中间代码,作为 LLVM Backend 输入的桥接语言。方便 LLVM Backend 给多语言做相同的优化,做到语言无关。
这个过程中还会跟 runtime 桥接
- 各种类,方法,成员变量等的结构体的生成,并将其放到对应的 Mach-O的section中。
- Non-Fragile ABI 合成 OBJC_IVAR_$_ 偏移值常量。
- ObjCMessageExpr 翻译成相应版本的 objc_msgSend,super 翻译成 objc_msgSendSuper。
- strong,weak,copy,atomic 合成 @property 自动实现 setter 和 getter。
- @synthesize 的处理。
- 生成 block_layout 数据结构
- __block 和 __weak
- _block_invoke
- ARC 处理,插入 objc_storeStrong 和 objc_storeWeak 等 ARC 代码。ObjCAutoreleasePoolStmt 转 objc_autorealeasePoolPush / Pop。自动添加 [super dealloc]。给每个 ivar 的类合成 .cxx_destructor 方法自动释放类的成员变量。
-
LLVM IR
有3种表示形式(但本质是等价的,就好比水可以有气体、液体、固体3种形态) - text:便于阅读的文本格式,类似于汇编语言,拓展名.ll,
$ clang -S -emit-llvm main.m
会在当前目录下生成.||文件, 使用SublineText ActionScript语言打开显示
image.png
- memory:内存格式
- bitcode:二进制格式,拓展名.bc,
$ clang -c -emit-llvm main.m
image.png
- IR输入到后端, 生成汇编文件
- 生成目标文件
- link目标文件,生成可执行文件
编译App完整步骤
下面是完整步骤:
* 编译信息写入辅助文件,创建文件架构 .app 文件
* 处理文件打包信息
* 执行 CocoaPod 编译前脚本,checkPods Manifest.lock
* 编译.m文件,使用 CompileC 和 clang 命令
* 链接需要的 Framework
* 编译 xib
* 拷贝 xib ,资源文件
* 编译 ImageAssets
* 处理 info.plist
* 执行 CocoaPod 脚本
* 拷贝标准库
* 创建 .app 文件和签名
image.png
Codegen 机器码生成器
image.png
问题
-
LLVM编译一个源文件的过程:
预处理 -> 词法分析 -> Token -> 语法分析 - > AST树 -> 代码生成 -> LLVM IR -> 优化 -> 生成汇编代码 -> Link -> 目标文件 -
基于LLVM, 我们可以做什么
a. 做语法树分析, 实现语言转换, 入如OC转Swift, JS 或 其他语言
b. 编写ClangPlugin, 用于代码的命名规范, 编写规范
c. 编写Pass, 代码混淆优化.
参考自 :
戴铭LLVM文章
戴铭segmentfault课
Clang 之路——编写我的第一个 Clang 插件:检测 ObjC 中的类声明规范