01---初识汇编

2021-03-22 本文已影响0人文艺情怀的程序猿

在逆向开发中，其中一个重要环节就是静态分析。我们逆向iOS系统中的某个APP，而APP安装在iPhone手机上的本质就是一个可执行的二进制文件，因为iPhone上的CPU执行的指令就是二进制。所以静态分析其实就是建立在分析二进制上面。而分析二进制，就不得不了解汇编语言。

语言的发展

1.机器语言：由0和1组成的机器指令。

加：0100 0000
减：0100 1000
乘：1111 0111 1110 0000
除：1111 0111 1111 0000

2.汇编语言(assembly language)：使用助记符代替机器语言。

加：INC EAX 通过编译器 0100 0000
减：DEC EAX 通过编译器 0100 1000
乘：MUL EAX 通过编译器 1111 0111 1110 0000
除：DIV EAX 通过编译器 1111 0111 1111 0000

3.高级语言（High-level programming language)：C/C++/OC/Swift/Java等更加接近人类的自然语言。

比如C语言:
加：A+B 通过编译器 0100 0000
减：A-B 通过编译器 0100 1000
乘：A*B 通过编译器 1111 0111 1110 0000
除：A/B 通过编译器 1111 0111 1111 0000

代码在终端设备的编译过程，如图1所示：

图1

汇编语言与机器语言一一对应，每一条机器指令都有与之对应的汇编指令

汇编语言可以通过编译得到机器语言，机器语言可以通过反汇编得到汇编语言

高级语言可以通过编译得到汇编语言 \ 机器语言，但汇编语言\机器语言几乎不可能还原成高级语言

CPU简介

在汇编中，大部分指令都是和CPU及内存相关，所以学好汇编必须对CPU有大致的了解。

总线

总线就是一根根导线的集合。
总线可分为：地址总线、数据总线、控制总线

①地址总线
它的宽度决定了CPU的寻址能力，例如：8086的地址总线宽度是20，所以寻址能力是1M（ 2的20次方）

②数据总线
它的宽度决定了CPU的单次数据传送量，也就是数据传送速度。例如：8086的数据总线宽度是16，所以单次最大传递2个字节的数据。

③控制总线
它的宽度决定了CPU对其他器件的控制能力、能有多少种控制。

进制

学习进制的障碍

很多人学不好进制，原因是总以十进制为依托去考虑其他进制，需要运算的时候也总是先转换成十进制，这种学习方法是错误的。
我们为什么一定要转换十进制呢？仅仅是因为我们对十进制最熟悉，所以才转换。
每一种进制都是完美的,想学好进制首先要忘掉十进制，也要忘掉进制间的转换！

进制的定义

①八进制由8个符号组成:0 1 2 3 4 5 6 7 逢八进一
②十进制由10个符号组成:0 1 2 3 4 5 6 7 8 9逢十进一
③N进制就是由N个符号组成:逢N进一

问题：1+1=3在什么情况下成立？

若十进制由10个符号组成: 0 1 3 2 8 A B E S 7 逢十进一
则：1+1=3

这样的目的何在?

传统我们定义的十进制和自定义的十进制不一样，如果我们不告诉别人这个符号表，别人是没办法拿到我们的具体数据的！此方法就可用于加密！

数据的宽度

数学上的数字，是没有大小限制的，可以无限的大。但在计算机中，由于受硬件的制约，数据都是有长度限制的（我们称为数据宽度），超过最多宽度的数据会被丢弃。

计算机中常见的数据宽度

位(Bit): 1个位就是1个二进制位0或者1；
字节(Byte): 1个字节由8个Bit组成(8位).内存中的最小单元Byte；
字(Word): 1个字由2个字节组成(16位),这2个字节分别称为高字节和低字节；
双字(Doubleword): 1个双字由两个字组成(32位)。

计算机存储数据它会分为有符号数和无符号数，如图2所示：

图2

无符号数,直接换算!
有符号数:
正数: 0 1 2 3 4 5 6 7
负数: F E D B C A 9 8
-1 -2 -3 -4 -5 -6 -7 -8

CPU&寄存器

CPU除了有控制器、运算器还有寄存器。其中寄存器的作用就是进行数据的临时存储。

对于arm64系的CPU来说，如果寄存器以x开头则表明的是一个64位的寄存器，如果以w开头则表明是一个32位的寄存器，在系统中没有提供16位和8位的寄存器供访问和使用。其中32位的寄存器是64位寄存器的低32位部分并不是独立存在的。

对程序员来说，CPU中最主要部件是寄存器，可以通过改变寄存器的内容来实现对CPU的控制
不同的CPU，寄存器的个数、结构是不相同的

通用寄存器

通用寄存器也称数据地址寄存器，通常用来做数据计算的临时存储、累加、计数、地址保存等功能。定义这些寄存器的作用主要是用于在CPU指令中保存操作数，在CPU中当做一些常规变量来使用。

ARM64拥有有32个64位的通用寄存器 x0 到 x30，以及XZR(零寄存器),这些通用寄存器有时也有特定用途。

那么w0 到 w28 这些是32位的，因为64位CPU可以兼容32位，所以可以只使用64位寄存器的低32位。比如 w0 就是 x0的低32位!

图3.png

通常，CPU会先将内存中的数据存储到通用寄存器中，然后再对通用寄存器中的数据进行运算。

pc寄存器(program counter)

为指令指针寄存器，它指示了CPU当前要读取指令的地址
在内存或者磁盘上，指令和数据没有任何区别，都是二进制信息
CPU在工作的时候把有的信息看做指令，有的信息看做数据，为同样的信息赋予了不同的意义
- 比如 1110 0000 0000 0011 0000 1000 1010 1010
- 可以当做数据 0xE003008AA
- 也可以当做指令 mov x0, x8
CPU根据什么将内存中的信息看做指令？
- CPU将pc指向的内存单元的内容看做指令
- 如果内存中的某段内容曾被CPU执行过，那么它所在的内存单元必然被pc指向过

浮点和向量寄存器

因为浮点数的存储以及其运算的特殊性，CPU中专门提供浮点数寄存器来处理浮点数。

浮点寄存器 64位: D0 - D31 32位: S0 - S31

现在的CPU支持向量运算，（向量运算在图形处理相关的领域用得非常的多）为了支持向量计算系统了也提供了众多的向量寄存器。

向量寄存器 128位:V0-V31

高速缓存

iPhoneX上搭载的ARM处理器A11它的1级缓存的容量是64KB，2级缓存的容量8M。

CPU每执行一条指令前都需要从内存中将指令读取到CPU内并执行。而寄存器的运行速度相比内存读写要快很多，为了性能，CPU还集成了一个高速缓存存储区域.当程序在运行时，先将要执行的指令代码以及数据复制到高速缓存中去(由操作系统完成)，CPU直接从高速缓存依次读取指令来执行。

bl指令

CPU从何处执行指令是由pc中的内容决定的，我们可以通过改变pc的内容来控制CPU执行目标指令
ARM64提供了一个mov指令（传送指令），可以用来修改大部分寄存器的值，比如mov x0,#10；mov x1,#20
但是，mov指令不能用于设置pc的值，ARM64没有提供这样的功能

ARM64提供了另外的指令来修改PC的值，这些指令统称为转移指令，最简单的是bl指令

练习bl指令

.text
.global _A,_B
_A:
mov x0,#0x0000
mov x1,#0xffff
add x0,x1,#0x00ff
mov x1,x0
bl _B
mov x0,#0x00
ret


_B:
add x0,x0,#0x00
ret

1. mov x0,#0x000     ;将0x000赋值给x0    x0=0x000
2. mov x1,#0xffff    ;将0xffff 赋值给x1        x1 =0xffff
3. add x0,x1,#0x00ff ;将0x00ff和x1相加赋值给x0    x0=0xffff
4. mov x1,x0         ;将x0的值赋值给x1         x1=0xffff
5. bl _B             ;跳转到B里，将x0和0x00相加，赋值给x0      x0 = 0xffff
6. mov x0,#0x00      ;将0x00赋值给x0    x0=0x00

所以最后x0的值为0