函数汇编原理(x86_64)
本文研究的是x86_64处理器下的函数汇编,但总的来说,不同的架构,其原理都是相通的,只是指令集不一样而已。
从最简单的函数说起
首先建立一个空函数,如下:
void func1(){ }
int main(int argc, const char * argv[]) {
func1();
return 0;
}
在func1的断点处,其汇编指令为:
0x100000fa6 <+22>: callq 0x100000f80 ; func1 at main.cpp:11
callq指令会使程序跳到0x100000f80的地址中执行,也就是func1。除此之外,该指令还会将当前函数的下一条指令入栈。
而在func1内部,其实现指令为:
0x100000f80 <+0>: pushq %rbp
0x100000f81 <+1>: movq %rsp, %rbp
0x100000f84 <+4>: popq %rbp
x100000f85 <+5>: retq
其中retq指令就是func1函数的推出操作,它会让将保存在栈顶的地址出栈,使程序跳到上一个函数的下一条汇编指令上运行。
而rbp用来存放函数的栈底地址,而rsp则存放栈顶地址,因为进入了新的函数,因此rbp需要更新,而上一个函数的栈低还需要保存起来,因此就需要让rbp的地址进栈。
实际上,不仅是rbp寄存器,一些通用的寄存器的当前值都是需要保存起来的。
待返回值的函数
在func1中加一下一段:
int func1(){
return 1;
}
对应的汇编代码为:
0x100000f80 <+0>: pushq %rbp
0x100000f81 <+1>: movq %rsp, %rbp
0x100000f84 <+4>: movl $0x1, -0x4(%rbp)
0x100000f8b <+11>: movl -0x4(%rbp), %eax
0x100000f8e <+14>: popq %rbp
0x100000f8f <+15>: retq
跟上一份代码相比,多了中间两行,其中eax寄存器就是用于存放返回�值的,供外界读取。对每于一个架构,其用于返回的寄存器可能是不一样的。
函数调用函数
然后,尝试在func1中调用一个空函数:
int func1(){
int i = 1;
func2();
return i;
}
对应的汇编代码如下:
0x100000f70 <+0>: pushq %rbp
0x100000f71 <+1>: movq %rsp, %rbp
0x100000f74 <+4>: subq $0x10, %rsp
0x100000f78 <+8>: movl $0x1, -0x4(%rbp)
0x100000f7f <+15>: callq 0x100000f60 ; func2 at main.cpp:11
0x100000f84 <+20>: movl -0x4(%rbp), %eax
0x100000f87 <+23>: addq $0x10, %rsp
0x100000f8b <+27>: popq %rbp
0x100000f8c <+28>: retq
比起上面的代码,又多了rsp的移动(第三行和第七行),在第三行,sp会往下移16位(栈是向下生长的),这个时候,sp和bp之间的区域就是这个函数的栈帧,主要用于保存这个函数执行过程中产生的局部变量。而在第七行对其进行复原,产生的局部变量就再也不被访问到了。
而在前面几个代码中,sp之所以不移动,是因为内部没有调用函数,不需要额外设置栈帧来保护函数区域。
带形参的函数
将func1改成带形参的函数:
int func1(int a){
return a;
}
int main(int argc, const char * argv[]) {
int c = func1(1);
return 0;
}
func1的汇编代码如下:
0x100000f70 <+0>: pushq %rbp
0x100000f71 <+1>: movq %rsp, %rbp
0x100000f74 <+4>: movl %edi, -0x4(%rbp)
0x100000f77 <+7>: movl -0x4(%rbp), %eax
0x100000f7e <+14>: popq %rbp
0x100000f7f <+15>: retq
可以看出,如果是一个形参的话,数值存放到了edi寄存器里面。大部分CPU都有专门存放形参的寄存器,如果传入的参数多余寄存器的数目,则形参会传入栈中。
本文分析的是x86_64下的函数汇编指令,对于arm64位的函数汇编指令可以参考这篇文章