C语言到汇编-函数与程序结构1
这章的知识点有:
1.函数的定义
2.函数的声明
3.作用域
4.头文件
5.静态变量
6.寄存器变量
7.程序块结构
8.初始化
9.递归
10.C预处理器
每一个知识点写一个程序例子,然后编译成汇编语言进行对比。
1.函数的定义
函数的定义形式如下:
返回值类型 函数明(参数声明表)
{
声明和语句
}
C语言程序例子:
#include <stdio.h>
int a = 'a';
int b = 15;
int c = 17;
int f(int,int,int);
main(){
f(a,b,c);
}
int f(int a,int b,int c)
{
int x = a;
int y = b;
int z = c;
print("%d", x);
print("%d", y);
print("%d", z);
return x;
}
这个程序定义了一个函数f,并在main函数中进行了调用。下面看编译后的汇编程序:
.file "function.c"
.intel_syntax
.globl _a
.data
.align 4
_a:
.long 97
.globl _b
.align 4
_b:
.long 15
.globl _c
.align 4
_c:
.long 17
.def ___main; .scl 2; .type 32; .endef
.text
.globl _main
.def _main; .scl 2; .type 32; .endef
_main:
push ebp
mov ebp, esp
sub esp, 24
and esp, -16
mov eax, 0
add eax, 15
add eax, 15
shr eax, 4
sal eax, 4
mov DWORD PTR [ebp-4], eax
mov eax, DWORD PTR [ebp-4]
call __alloca
call ___main
mov eax, DWORD PTR _c
mov DWORD PTR [esp+8], eax
mov eax, DWORD PTR _b
mov DWORD PTR [esp+4], eax
mov eax, DWORD PTR _a
mov DWORD PTR [esp], eax
call _f
leave
ret
.section .rdata,"dr"
LC0:
.ascii "%d\0"
.text
.globl _f
.def _f; .scl 2; .type 32; .endef
_f:
push ebp
mov ebp, esp
sub esp, 24
mov eax, DWORD PTR [ebp+8]
mov DWORD PTR [ebp-4], eax
mov eax, DWORD PTR [ebp+12]
mov DWORD PTR [ebp-8], eax
mov eax, DWORD PTR [ebp+16]
mov DWORD PTR [ebp-12], eax
mov eax, DWORD PTR [ebp-4]
mov DWORD PTR [esp+4], eax
mov DWORD PTR [esp], OFFSET FLAT:LC0
call _print
mov eax, DWORD PTR [ebp-8]
mov DWORD PTR [esp+4], eax
mov DWORD PTR [esp], OFFSET FLAT:LC0
call _print
mov eax, DWORD PTR [ebp-12]
mov DWORD PTR [esp+4], eax
mov DWORD PTR [esp], OFFSET FLAT:LC0
call _print
mov eax, DWORD PTR [ebp-4]
leave
ret
.def _print; .scl 2; .type 32; .endef
可以看到,C程序中的函数f 对应汇编程序中的子程序_f 。具体分析一下代码,先看main 函数中:
_main:
push ebp
mov ebp, esp
sub esp, 24
and esp, -16
mov eax, 0
add eax, 15
add eax, 15
shr eax, 4
sal eax, 4
mov DWORD PTR [ebp-4], eax
mov eax, DWORD PTR [ebp-4]
call __alloca
call ___main
mov eax, DWORD PTR _c
mov DWORD PTR [esp+8], eax
mov eax, DWORD PTR _b
mov DWORD PTR [esp+4], eax
mov eax, DWORD PTR _a
mov DWORD PTR [esp], eax
call _f
leave
ret
为了方便分析,画了一个内存图表格,左列是地址,右列是内存单元中存储的内容,每个单元格代表4个内存单元,也即32位。如图:
表格1
进入main 函数后,栈指针esp 指向栈底,即上图中的esp(1) 位置。(右侧单元格代表4个内存单元,栈指针esp 指的是第1个内存单元的地址)
然后开始执行代码:
push ebp
mov ebp, esp
sub esp, 24
and esp, -16
执行第1行“push ebp”指令,栈指针esp 上移32位,来到表格1中的倒数第2行esp(2) 的位置,并将ebp 的值压入了右边栈内存;
执行第2行“mov ebp,esp”指令,把此时esp 的值赋给了ebp ,ebp 指向的位置和esp(2) 相同;
执行第3行“sub esp,24”指令,esp 向上移动24个内存单元,也即表格中的6个单元格,来到了表格1中第1行的位置;
第4行指令“and esp,-16”是将esp的后4位置0。(调整地址到可以被16整除的位置,属于编译器的内存优化指令,先不用管。)
后面的几行指令:
mov eax, 0
add eax, 15
add eax, 15
shr eax, 4
sal eax, 4
mov DWORD PTR [ebp-4], eax
mov eax, DWORD PTR [ebp-4]
call __alloca
call ___main
设置了eax寄存器的值,并把它存入了地址[ebp-4]中,暂时不知道什么作用,跳过。
接下来几行指令开始获取3个参数a b c的值,并将它们存入栈中:
mov eax, DWORD PTR _c
mov DWORD PTR [esp+8], eax
mov eax, DWORD PTR _b
mov DWORD PTR [esp+4], eax
mov eax, DWORD PTR _a
mov DWORD PTR [esp], eax
call _f
获取完参数后,最后一行准备调用子函数_f ,此时esp、ebp以及参数a b c的位置即如表格1中所示:
表格1
然后开始执行“call _f”指令,即将此时的指令寄存器eip 的值压入栈中,然后跳转到标号_f 处执行。参照表格2,此时栈指针esp 的位置在esp(1)处(只看表格上一半/粗体部分),如图:
表格2
进入子程序_f 部分代码:
_f:
push ebp
mov ebp, esp
sub esp, 24
mov eax, DWORD PTR [ebp+8]
mov DWORD PTR [ebp-4], eax
mov eax, DWORD PTR [ebp+12]
mov DWORD PTR [ebp-8], eax
mov eax, DWORD PTR [ebp+16]
mov DWORD PTR [ebp-12], eax
mov eax, DWORD PTR [ebp-4]
mov DWORD PTR [esp+4], eax
mov DWORD PTR [esp], OFFSET FLAT:LC0
call _print
mov eax, DWORD PTR [ebp-8]
mov DWORD PTR [esp+4], eax
mov DWORD PTR [esp], OFFSET FLAT:LC0
call _print
mov eax, DWORD PTR [ebp-12]
mov DWORD PTR [esp+4], eax
mov DWORD PTR [esp], OFFSET FLAT:LC0
call _print
mov eax, DWORD PTR [ebp-4] //返回值x的值放在寄存器eax中。
leave
ret
(从上面两段汇编代码可以看出,处理参数使用的都是esp ,处理局部变量使用的都是ebp 。)
参考上文不难分析出,前9行代码执行后局部变量x y z以及寄存器esp、ebp的位置即如表格2中所示。
再看原C程序中的代码:
int f(int a,int b,int c)
{
int x = a;
int y = b;
int z = c;
print("%d", x);
print("%d", y);
print("%d", z);
return x;
}
汇编程序_f 函数前9行执行后,相当于执行完上面C程序f函数的前3行,即:
int x = a;
int y = b;
int z = c;
C程序接下来的3行是print 打印功能,对应汇编程序_f 函数中的代码为:
mov eax, DWORD PTR [ebp-4]
mov DWORD PTR [esp+4], eax
mov DWORD PTR [esp], OFFSET FLAT:LC0
call _print
mov eax, DWORD PTR [ebp-8]
mov DWORD PTR [esp+4], eax
mov DWORD PTR [esp], OFFSET FLAT:LC0
call _print
mov eax, DWORD PTR [ebp-12]
mov DWORD PTR [esp+4], eax
mov DWORD PTR [esp], OFFSET FLAT:LC0
call _print
第1、2行取出变量x 的值并当作参数存入[esp+4]位置,即表格2中的第2行“x/y/z”处,第3行将标号LC0处的内容存到[esp]位置,即表格中“x/y/z”的上面(表格中没写上),然后调用标准库中的_print子程序。后面几行代码类似,变量y和z作为参数的值都是存在表格2中的“x/y/z”处。
最后两行代码:
leave
ret
leave指令相当于下面两条指令:
mov esp,ebp
pop ebp
这两条指令执行后,esp 回到函数执行前的位置,即表格2中上面的esp(1)处。ret 指令执行后,函数_f 返回,则esp 回到函数调用前的位置,即表格2中“a”对应的esp 处。_main 函数中也有相同的leave 和ret 指令,_main中的leave 指令执行后,esp 回到表格2中最下面一行的esp(1)处(阴影部分),ret 指令指令后,esp 回到_main 函数执行之前的位置。
经过上面的分析,清楚了C语言函数执行过程中参数和局部变量在内存中的位置变化。不同编译器的细节处理虽然可能不同,但原理应该都类似。
好了,文章太长了,10个知识点只写了1个,这章后面的9个知识点下一篇文章再继续。最后,根据表格2,将汇编程序简化如下,方便对比(描述性代码,无法执行):
_main:
......
mov eax, _c
mov [c], eax
mov eax, _b
mov [b], eax
mov eax, _a
mov [a], eax
call _f
leave
ret
LC0:
.ascii "%d\0"
_f:
mov eax, [a]
mov [x], eax
mov eax, [b]
mov [y], eax
mov eax, [c]
mov [z], eax
mov eax, [x]
mov [esp+4], eax
mov [esp], "%d\0"
call _print
mov eax, [y]
mov [esp+4], eax
mov [esp], "%d\0"
call _print
mov eax, [z]
mov [esp+4], eax
mov [esp], "%d\0"
call _print
mov eax, [x]
leave
ret
([a] [b] [c] [x] [y] [z] 对应表格2中的a b c x y z。)