从汇编看函数

2020-01-10  本文已影响0人  yahibo

一、简介

CPU
中央处理器,内部主要包括寄存器、运算器、控制器。

常用寄存器

x30寄存器

常用指令

函数参数和返回值
ARM64下,函数存放在x0~x7(w0~w7)8个寄存器中,超过8个参数,就会入栈。函数返回值是放在x0寄存器中的。通用寄存器32个。

二、汇编函数嵌套

1、demo1-汇编函数嵌套

.text
.global _A, B
_A:
    mov x0, #0xaaaa
    bl _B
    mov x0,#0xaaaa
    ret
_B:
    mov x0, #0xbbbb
    ret

执行顺序:

demo`A:
    0x102c0a0c4 <+0>:  mov    x0, #0xaaaa
    0x102c0a0c8 <+4>:  bl     0x102c0a0d4               ; B ①
    0x102c0a0cc <+8>:  mov    x0, #0xaaaa   ②
->  0x102c0a0d0 <+12>: ret    

继续执行,①和②会来回执行,①->②->①->…。
原因:在A函数中调用了B函数,这里x30的值将被置为B函数的结束地址,继续执行到retret会读取了x30的地址(B函数的结束地址)①处,继续往下执行到②,因此就①->②->①->…。

下面看系统是如何处理嵌套函数的调用的:

2、demo2-c函数嵌套

int A(void);
void b() {
    return;
}
void c() {
    b();
}
int main(int argc, char * argv[]) {
    c();
//    A();
}

断点单步执行打印如下:

demo`c:
    0x102f9a318 <+0>:  stp    x29, x30, [sp, #-0x10]!
    0x102f9a31c <+4>:  mov    x29, sp
    0x102f9a320 <+8>:  bl     0x102f9a314               ; b at main.m:14:5
    0x102f9a324 <+12>: ldp    x29, x30, [sp], #0x10
->  0x102f9a328 <+16>: ret    

在每一步打印x30的值:

asm1.png

从上面的运行结果可以看出,x30寄存器在调起内嵌函数前,存储x30地址到 [sp, #-0x10]的地址中,内嵌函数调用完成后,重新设置当前x30 = spsp存储了当前函数的地址),执行到retret读取到的地址即当前函数的结束地址,继续执行则跳出该函数。

3、demo3-完善demo1
在函数内调用函数,保存当前函数A结束地址x30sp-0x10(16个字节)位置,函数B结束后重新设置x30的值为sp(函数A的结束地址),这样就完成嵌套函数调用。

.text
.global _A, B
_A:
    mov x0, #0xaaaa
    str x30,[sp, #-0x10]!
    bl _B
    mov x0,#0xaaaa
    ldr x30, [sp], #0x10
    ret
_B:
    mov x0, #0xbbbb
    ret

如下:

asm2.png

三、函数

上面了解了汇编函数嵌套的处理方法,下面看一下在汇编层对参数是怎么处理的。

int sum(int a, int b) {
    return a+b;
}

int main(int argc, char * argv[]) {
    Int res = sum(5,7);
}

断点查看主函数汇编代码:

main.png

进入sum函数内查看,汇编指令:

sum.png

编译器优化:


fast.png

优化后的汇编指令:

fast2.png

掉了两根头发!!!

多参数demo

int sum(int a,int b,int c,int d,int e,int f,int g,int h,int i,int j,int k,int l) {
    return a+b+b+c+d+e+f+g+h+i+j+k+l;
}

int main(int argc, char * argv[]) {
    int res = sum(5,7);
}

main函数汇编指令如下:

more.png

初始化寄存器的值,这里使用w0~w8、x9,这里w0=x0,w9=x9,不用纠结为什么没有都使用wxwx的低32位,同属于一个寄存器,在系统级别怎么用都行。过!

进入函数内部:

add.png

拉伸栈空间,存寄存器值,取值,相加,指令太多,每一条指令耗时1/主频,复合指令耗时2/主频,这么多指令,太烧了。

局部变量

demo1-函数多参数

int funcC() {
    int a = 1;
    int b = 2;
    int c = 3;
    return a+b+c;
}

int main(int argc, char * argv[]) {
    int res = funcC();
}

函数汇编指令如下:

func.png

再看一段代码:

int funcC() {
    return 1+2+3;
}

int main(int argc, char * argv[]) {
    int res = funcC();
}

汇编指令:

less.png

这里就执行了一条指令,其实内部有做add相关指令,这里做了优化,但相比上面声明的局部变量,这里没有开辟栈空间,省去了很多指令,每一条指令耗时1/主频,复合指令耗时2/主频,每条指令都要放电一次,耗电,局部变量悠着点用,当然真正开发中编译器是会优化掉这些多余代码。

……
……

上一篇 下一篇

猜你喜欢

热点阅读