二十四、LLVM
LLVM概述
LLVM是构架编译器(compiler)的框架系统,以C++编写而成,用于优化以任意程 序语言编写的程序的编译时间(compile-time)、链接时间(link-time)、运行时间 (run-time)以及空闲时间(idle-time),对开发者保持开放,并兼容已有脚本。
LLVM计划启动于2000年,最初由美国UIUC大学的Chris Lattner博士主持开展。 2006年C hris Lattner加盟Apple Inc.并致力于LLVM在Apple开发体系中的应用。
Apple也是LLVM计划的主要资助者。
目前LLVM已经被苹果IOS开发工具、Xilinx Vivado、Facebook、Google等各大 公司采用。
传统编译器设计
传统编译器设计.png编译器前端(Frontend)
编译器前端的任务是解析源代码。它会进行:词法分析,语法分析,语义分析, 检查源代码是否存在错误,然后构建抽象语法树(Abstract Syntax Tree,AST) ,LLVM的前端还会生成中间代码(intermediate representation , IR)。
优化器(Optimizer)
优化器负责进行各种优化。改善代码的运行时间,例如消除冗余计算等。
后端(Backend) /代码生成器(CodeGenerator)
将代码映射到目标指令集。生成机器语言,并且进行机器相关的代码优化。
iOS的编译器架构
Objective C/C/C++使用的编译器前端是Clang, Swift是Swift,后端都是LLVM。
iOS编译器架构.png
LLVM的设计
当编译器决定支持多种源语言或多种硬件架构时,LLVM最重要的地方就来了。 其他的编译器如GCC,它方法非常成功,但由于它是作为整体应用程序设计的, 因此它们的用途受到了很大的限制。
LLVM设计的最重要方面是,使用通用的代码表示形式(IR),它是用来在编译器中表示代码的形式。所以LLVM可以为任何编程语言独立编写前端,并且可以为任意硬件架构独立编写后端。
编译器架构.png
出了一个新的高级语言,添加设计一个前端就可以了。出现新的cpu,添加一个后端就可以。
Clang
Clang是LLVM项目中的一个子项目。它是基于LLVM架构的轻量级编译器,诞生 之初是为了替代GCC,提供更快的编译速度。它是负责编译C、C++、Objecte- C语言的编译器,它属于整个LLVM架构中的,编译器前端。对于开发者来说,研究Clang可以给我们带来很多好处。
编译流程
通过命令可以打印源码的编译阶段
clang -ccc-print-phases main.m
0: input, "main.m", objective-c
1: preprocessor, {0}, objective-c-cpp-output
2: compiler, {1}, ir
3: backend, {2}, assembler
4: assembler, {3}, object
5: linker, {4}, image
6: bind-arch, "x86_64", {5}, image
0:输入文件:找到源文件。
1:预处理阶段:这个过程处理包括宏的替换,头文件的导入。
2:编译阶段:进行词法分析、语法分析、检测语法是否正确,最终生成IR。
3:后端:这里LLVM会通过一个一个的Pass去优化,每个Pass做一些事情,最 终生成汇编代码。
4:生成目标文件。
5:链接:链接需要的动态库和静态库,生成可执行文件。
6:通过不同的架构,生成对应的可执行文件。
预处理阶段
#import <stdio.h>
#define C 30
typedef int HK_INT_64;
int main(int argc, const char * argv[]) {
@autoreleasepool {
HK_INT_64 a = 10;
HK_INT_64 b = 20;
printf("%d",a + b + C);
}
return 0;
}
执行如下命令
clang -E main.m
clang -E main.m >> mian2.m //输出到文件中
...
typedef int HK_INT_64;
int main(int argc, const char * argv[]) {
@autoreleasepool {
HK_INT_64 a = 10;
HK_INT_64 b = 20;
printf("%d",a + b + 30);
}
return 0;
}
执行完毕可以看到头文件的导入和宏的替换。类型别名没有被替换掉。
编译阶段
词法分析
预处理完成后就会进行词法分析.这里会把代码切成一个个Token,比如大小括 号,等于号还有字符串等。
clang -fmodules -fsyntax-only -Xclang -dump-tokens main.m
annot_module_include '#import <stdio.h>
#define C 30
typedef int HK_INT_64;
int main(int argc, const char * argv[]) {
@autoreleasepool {
HK_INT_6' Loc=<main.m:9:1>
typedef 'typedef' [StartOfLine] Loc=<main.m:12:1>
int 'int' [LeadingSpace] Loc=<main.m:12:9>
identifier 'HK_INT_64' [LeadingSpace] Loc=<main.m:12:13>
semi ';' Loc=<main.m:12:22>
int 'int' [StartOfLine] Loc=<main.m:14:1>
identifier 'main' [LeadingSpace] Loc=<main.m:14:5>
l_paren '(' Loc=<main.m:14:9>
int 'int' Loc=<main.m:14:10>
identifier 'argc' [LeadingSpace] Loc=<main.m:14:14>
comma ',' Loc=<main.m:14:18>
const 'const' [LeadingSpace] Loc=<main.m:14:20>
char 'char' [LeadingSpace] Loc=<main.m:14:26>
star '*' [LeadingSpace] Loc=<main.m:14:31>
identifier 'argv' [LeadingSpace] Loc=<main.m:14:33>
l_square '[' Loc=<main.m:14:37>
r_square ']' Loc=<main.m:14:38>
r_paren ')' Loc=<main.m:14:39>
l_brace '{' [LeadingSpace] Loc=<main.m:14:41>
at '@' [StartOfLine] [LeadingSpace] Loc=<main.m:15:5>
identifier 'autoreleasepool' Loc=<main.m:15:6>
l_brace '{' [LeadingSpace] Loc=<main.m:15:22>
identifier 'HK_INT_64' [StartOfLine] [LeadingSpace] Loc=<main.m:16:9>
identifier 'a' [LeadingSpace] Loc=<main.m:16:19>
equal '=' [LeadingSpace] Loc=<main.m:16:21>
numeric_constant '10' [LeadingSpace] Loc=<main.m:16:23>
semi ';' Loc=<main.m:16:25>
identifier 'HK_INT_64' [StartOfLine] [LeadingSpace] Loc=<main.m:17:9>
identifier 'b' [LeadingSpace] Loc=<main.m:17:19>
equal '=' [LeadingSpace] Loc=<main.m:17:21>
numeric_constant '20' [LeadingSpace] Loc=<main.m:17:23>
semi ';' Loc=<main.m:17:25>
identifier 'printf' [StartOfLine] [LeadingSpace] Loc=<main.m:18:9>
l_paren '(' Loc=<main.m:18:15>
string_literal '"%d"' Loc=<main.m:18:16>
comma ',' Loc=<main.m:18:20>
identifier 'a' Loc=<main.m:18:21>
plus '+' [LeadingSpace] Loc=<main.m:18:23>
identifier 'b' [LeadingSpace] Loc=<main.m:18:25>
plus '+' [LeadingSpace] Loc=<main.m:18:27>
numeric_constant '30' [LeadingSpace] Loc=<main.m:18:29 <Spelling=main.m:10:11>>
r_paren ')' Loc=<main.m:18:30>
semi ';' Loc=<main.m:18:31>
r_brace '}' [StartOfLine] [LeadingSpace] Loc=<main.m:19:5>
return 'return' [StartOfLine] [LeadingSpace] Loc=<main.m:20:5>
numeric_constant '0' [LeadingSpace] Loc=<main.m:20:12>
semi ';' Loc=<main.m:20:13>
r_brace '}' [StartOfLine] Loc
语法分析
词法分析完成之后就是语法分析,它的任务是验证语法是否正确。在词法分析的 基础上将单词序列组合成各类语法短语,如“程序”,“语句”,“表达式”等等,然 后将所有节点组成抽象语法树(Abstract Syntax Tree, AST)。语法分析程序判 断源程序在结构上是否正确。
clang -fmodules -fsyntax-only -Xclang -ast-dump main.m
如果导入头文件找不到,那么可以指定SDK
clang -isysroot/Applications/Xcode.app/Contents/Developer/Platforms/ iPhoneSimulator.platform/Developer/SDKs/iPhoneSimulator12.2.sdk (自己S DK 路径) -fmodules -fsyntax-only -Xclang -ast-dump main.m
TranslationUnitDecl 0x7f8da082e408 <<invalid sloc>> <invalid sloc> <undeserialized declarations>
|-TypedefDecl 0x7f8da082eca0 <<invalid sloc>> <invalid sloc> implicit __int128_t '__int128'
| `-BuiltinType 0x7f8da082e9a0 '__int128'
|-TypedefDecl 0x7f8da082ed10 <<invalid sloc>> <invalid sloc> implicit __uint128_t 'unsigned __int128'
| `-BuiltinType 0x7f8da082e9c0 'unsigned __int128'
|-TypedefDecl 0x7f8da082edb0 <<invalid sloc>> <invalid sloc> implicit SEL 'SEL *'
| `-PointerType 0x7f8da082ed70 'SEL *'
| `-BuiltinType 0x7f8da082ec00 'SEL'
|-TypedefDecl 0x7f8da082ee98 <<invalid sloc>> <invalid sloc> implicit id 'id'
| `-ObjCObjectPointerType 0x7f8da082ee40 'id'
| `-ObjCObjectType 0x7f8da082ee10 'id'
|-TypedefDecl 0x7f8da082ef78 <<invalid sloc>> <invalid sloc> implicit Class 'Class'
| `-ObjCObjectPointerType 0x7f8da082ef20 'Class'
| `-ObjCObjectType 0x7f8da082eef0 'Class'
|-ObjCInterfaceDecl 0x7f8da082efd0 <<invalid sloc>> <invalid sloc> implicit Protocol
|-TypedefDecl 0x7f8da082f348 <<invalid sloc>> <invalid sloc> implicit __NSConstantString 'struct __NSConstantString_tag'
| `-RecordType 0x7f8da082f140 'struct __NSConstantString_tag'
| `-Record 0x7f8da082f0a0 '__NSConstantString_tag'
|-TypedefDecl 0x7f8da100ac00 <<invalid sloc>> <invalid sloc> implicit __builtin_ms_va_list 'char *'
| `-PointerType 0x7f8da082f3a0 'char *'
| `-BuiltinType 0x7f8da082e4a0 'char'
|-TypedefDecl 0x7f8da100aee8 <<invalid sloc>> <invalid sloc> implicit __builtin_va_list 'struct __va_list_tag [1]'
| `-ConstantArrayType 0x7f8da100ae90 'struct __va_list_tag [1]' 1
| `-RecordType 0x7f8da100acf0 'struct __va_list_tag'
| `-Record 0x7f8da100ac58 '__va_list_tag'
|-ImportDecl 0x7f8da100b710 <main.m:9:1> col:1 implicit Darwin.C.stdio
|-TypedefDecl 0x7f8da100b768 <line:12:1, col:13> col:13 referenced HK_INT_64 'int'
| `-BuiltinType 0x7f8da082e500 'int'
`-FunctionDecl 0x7f8da100ba40 <line:14:1, line:21:1> line:14:5 main 'int (int, const char **)'
|-ParmVarDecl 0x7f8da100b7d8 <col:10, col:14> col:14 argc 'int'
|-ParmVarDecl 0x7f8da100b8f0 <col:20, col:38> col:33 argv 'const char **':'const char **'
`-CompoundStmt 0x7f8da11681c0 <col:41, line:21:1>
|-ObjCAutoreleasePoolStmt 0x7f8da1168178 <line:15:5, line:19:5>
| `-CompoundStmt 0x7f8da1168150 <line:15:22, line:19:5>
| |-DeclStmt 0x7f8da1167a88 <line:16:9, col:25>
| | `-VarDecl 0x7f8da1167a00 <col:9, col:23> col:19 used a 'HK_INT_64':'int' cinit
| | `-IntegerLiteral 0x7f8da1167a68 <col:23> 'int' 10
| |-DeclStmt 0x7f8da1167f18 <line:17:9, col:25>
| | `-VarDecl 0x7f8da1167ab0 <col:9, col:23> col:19 used b 'HK_INT_64':'int' cinit
| | `-IntegerLiteral 0x7f8da1167b18 <col:23> 'int' 20
| `-CallExpr 0x7f8da11680f0 <line:18:9, col:30> 'int'
| |-ImplicitCastExpr 0x7f8da11680d8 <col:9> 'int (*)(const char *, ...)' <FunctionToPointerDecay>
| | `-DeclRefExpr 0x7f8da1167f30 <col:9> 'int (const char *, ...)' Function 0x7f8da1167b40 'printf' 'int (const char *, ...)'
| |-ImplicitCastExpr 0x7f8da1168138 <col:16> 'const char *' <NoOp>
| | `-ImplicitCastExpr 0x7f8da1168120 <col:16> 'char *' <ArrayToPointerDecay>
| | `-StringLiteral 0x7f8da1167f88 <col:16> 'char [3]' lvalue "%d"
| `-BinaryOperator 0x7f8da1168088 <col:21, line:10:11> 'int' '+'
| |-BinaryOperator 0x7f8da1168048 <line:18:21, col:25> 'int' '+'
| | |-ImplicitCastExpr 0x7f8da1168018 <col:21> 'HK_INT_64':'int' <LValueToRValue>
| | | `-DeclRefExpr 0x7f8da1167fa8 <col:21> 'HK_INT_64':'int' lvalue Var 0x7f8da1167a00 'a' 'HK_INT_64':'int'
| | `-ImplicitCastExpr 0x7f8da1168030 <col:25> 'HK_INT_64':'int' <LValueToRValue>
| | `-DeclRefExpr 0x7f8da1167fe0 <col:25> 'HK_INT_64':'int' lvalue Var 0x7f8da1167ab0 'b' 'HK_INT_64':'int'
| `-IntegerLiteral 0x7f8da1168068 <line:10:11> 'int' 30
`-ReturnStmt 0x7f8da11681b0 <line:20:5, col:12>
生成中间代码 IR(intermediate representation )
完成以上步骤后就开始生成中间代码IR 了,代码生成器(Code Generation )会 将语法树自顶向下遍历逐步翻译成LLVM IR。通过下面命令可以生成.11的文本文 件,查看IR代码。
int test(int a,int b){
return a + b + 3;
}
int main(int argc, const char * argv[]) {
int a = test(1, 2);
printf("%d",a);
return 0;
}
clang -S -fobjc-arc -emit-llvm main.m
Objective C代码在这一步会进行runtime的桥接:property合成,ARC处理等
IR的基本语法
; ModuleID = 'main.m'
source_filename = "main.m"
target datalayout = "e-m:o-i64:64-f80:128-n8:16:32:64-S128"
target triple = "x86_64-apple-macosx10.15.0"
@.str = private unnamed_addr constant [3 x i8] c"%d\00", align 1
; Function Attrs: noinline nounwind optnone ssp uwtable
define i32 @test(i32, i32) #0 {; int a0,int a1
%3 = alloca i32, align 4 ;int a3
%4 = alloca i32, align 4 ;int b4
store i32 %0, i32* %3, align 4 ;a3 = a0
store i32 %1, i32* %4, align 4 ;a4 = a1
%5 = load i32, i32* %3, align 4 ; int a5 = a3
%6 = load i32, i32* %4, align 4 ; int a6 = a4
%7 = add nsw i32 %5, %6 ; int a7 = a5 + a6
%8 = add nsw i32 %7, 3 ; int a8 = a7 + 3
ret i32 %8 ;return a8;
}
; Function Attrs: noinline optnone ssp uwtable
define i32 @main(i32, i8**) #1 {
%3 = alloca i32, align 4
%4 = alloca i32, align 4
%5 = alloca i8**, align 8
%6 = alloca i32, align 4
store i32 0, i32* %3, align 4
store i32 %0, i32* %4, align 4
store i8** %1, i8*** %5, align 8
%7 = call i32 @test(i32 1, i32 2)
store i32 %7, i32* %6, align 4
%8 = load i32, i32* %6, align 4
%9 = call i32 (i8*, ...) @printf(i8* getelementptr inbounds ([3 x i8], [3 x i8]* @.str, i64 0, i64 0), i32 %8)
ret i32 0
}
declare i32 @printf(i8*, ...) #2
attributes #0 = { noinline nounwind optnone ssp uwtable "correctly-rounded-divide-sqrt-fp-math"="false" "darwin-stkchk-strong-link" "disable-tail-calls"="false" "frame-pointer"="all" "less-precise-fpmad"="false" "min-legal-vector-width"="0" "no-infs-fp-math"="false" "no-jump-tables"="false" "no-nans-fp-math"="false" "no-signed-zeros-fp-math"="false" "no-trapping-math"="false" "probe-stack"="___chkstk_darwin" "stack-protector-buffer-size"="8" "target-cpu"="penryn" "target-features"="+cx16,+cx8,+fxsr,+mmx,+sahf,+sse,+sse2,+sse3,+sse4.1,+ssse3,+x87" "unsafe-fp-math"="false" "use-soft-float"="false" }
attributes #1 = { noinline optnone ssp uwtable "correctly-rounded-divide-sqrt-fp-math"="false" "darwin-stkchk-strong-link" "disable-tail-calls"="false" "frame-pointer"="all" "less-precise-fpmad"="false" "min-legal-vector-width"="0" "no-infs-fp-math"="false" "no-jump-tables"="false" "no-nans-fp-math"="false" "no-signed-zeros-fp-math"="false" "no-trapping-math"="false" "probe-stack"="___chkstk_darwin" "stack-protector-buffer-size"="8" "target-cpu"="penryn" "target-features"="+cx16,+cx8,+fxsr,+mmx,+sahf,+sse,+sse2,+sse3,+sse4.1,+ssse3,+x87" "unsafe-fp-math"="false" "use-soft-float"="false" }
attributes #2 = { "correctly-rounded-divide-sqrt-fp-math"="false" "darwin-stkchk-strong-link" "disable-tail-calls"="false" "frame-pointer"="all" "less-precise-fpmad"="false" "no-infs-fp-math"="false" "no-nans-fp-math"="false" "no-signed-zeros-fp-math"="false" "no-trapping-math"="false" "probe-stack"="___chkstk_darwin" "stack-protector-buffer-size"="8" "target-cpu"="penryn" "target-features"="+cx16,+cx8,+fxsr,+mmx,+sahf,+sse,+sse2,+sse3,+sse4.1,+ssse3,+x87" "unsafe-fp-math"="false" "use-soft-float"="false" }
!llvm.module.flags = !{!0, !1, !2, !3, !4, !5, !6, !7}
!llvm.ident = !{!8}
!0 = !{i32 2, !"SDK Version", [3 x i32] [i32 10, i32 15, i32 6]}
!1 = !{i32 1, !"Objective-C Version", i32 2}
!2 = !{i32 1, !"Objective-C Image Info Version", i32 0}
!3 = !{i32 1, !"Objective-C Image Info Section", !"__DATA,__objc_imageinfo,regular,no_dead_strip"}
!4 = !{i32 4, !"Objective-C Garbage Collection", i32 0}
!5 = !{i32 1, !"Objective-C Class Properties", i32 64}
!6 = !{i32 1, !"wchar_size", i32 4}
!7 = !{i32 7, !"PIC Level", i32 2}
!8 = !{!"Apple clang version 11.0.3 (clang-1103.0.32.62)"}
@全局标识
%局部标识
alloca开辟空间
align内存对齐
i32 32个bit, 4个字节
store写入内存
load读取数据
call调用函数
ret返回
IR的优化
编译器优化.pngLLVM的优化级别分别是-O0 -O1 -O2 -O3 -Os(第一个是大写英文字母O)
clang -Os -S -fobjc-arc -emit-llvm main.m -o main.ll
bitCode
xcode7以后开启bitcode苹果会做进一步的优化。生成.be的中间代码。 我们通过优化后的IR代码生成.be代码
clang -emit-llvm -c main.ll -o main.bc
生成汇编代码
我们通过最终的.be或者.ll代码生成汇编代码
clang -S -fobjc-arc main.bc -o main.s
clang -S -fobjc-arc main.ll -o main.s
生成汇编代码也可以进行优化
clang -Os -S -fobjc-arc main.m -o main.s
生成目标文件(汇编器)
目标文件的生成,是汇编器以汇编代码作为输入,将汇编代码转换为机器代码, 最后输出目标文件(object file)o
clang -fmodules -c main.s -o main.o
通过nm命令,查看下main.o中的符号
$xcrun nm -nm main.o
(undefined) external _printf
0000000000000000 ( _TEXT, _text) external _test
000000000000000a ( TEXT, text) external _main
_printf 是一个是 undefined externaI
的。
undefined表示在当前文件暂时找不到符号_printf external表示这个符号是外部可以访问的。
生成可执行文件(链接)
连接器把编译产生的.o文件和(.dylib .a)文件,生成一个mach-o文件。
clang main.o -o main
查看链接之后的符号
$xcrun nm -nm main
(undefined) external _printf (from libSystem)//运行的时候动态的绑定
(undefined) external dyld_stub_binder (from libSyste
m)
0000000100000000 ( TEXT, text) [referenced dynamically] external
mh_execute_header
000000100000f6d ( _TEXT, _text) external _test
000000100000f77 ( TEXT, text) external _main
这就是将源代码编译成可执行的文件