C/C++ 编译与函数的深度理解

2017-09-26 本文已影响97人白痴毛

编译是将高可读性的源代码转为汇编语言，再进一步转换为二进制文件（obj）的过程。

当引用 lib文件（静态链接库）时，会将其嵌入到生成的obj文件中，但dll文件（动态链接库）不会，它只在exe运行时载入。

1. 编译技巧

在代码编写时，我们可以使用一些tricky的方法来骗过编译器，从而实现某些特殊要求

struct Car; //声明Car，但未定义
Car* createCar(){ return null; }

int main() {
  Car* p = createCar();
}

上面这段代码没有定义Car，但依然可以跑，因为编译器在编译时知道指针p的大小为4个byte。
一般而言，任何类型的指针大小都是4个byte。

但如果不使用指针，编译器就会报错，比如下面的代码。

int main() {
  Car p = Car();
}

编译器编译时不知道Car这个类的大小，因为它只有声明没有定义，所以会报错。

有时候我们会出现让两个类A, B互相包含的情况，这时候也需要用指针。

class A { 
  B b; 
}
class B { 
  A a; 
}

这样的定义会报错，但是如果换成

class A { 
  B* b; 
}
class B { 
  A* a; 
}

就可以正常运行了。

由于C++中每个cpp文件都会单独编译为obj，每个头文件都会查找所有相关头文件，嵌入再进行编译，很耗时间。当工程量很大时，编译时间好几个小时是很正常的情况。
减少编译时间的方法可以参考这个链接

2. 函数传参

C++函数都运行在内存中的某一块特定区域，叫做栈。
当我们调用Foo(5,7)这么一个函数时，它的汇编指令大概如下：

push 7
push 5
jmp Foo

上级函数先把两个参数7和5 push到栈里（压栈），然后跳转到Foo函数的Body地址开始执行Foo函数。

这里有两个要注意的点
1）.先push 7，后push 5
函数压栈时，参数是按照从右向左的顺序压栈。（这取决于编译器的约定 Calling Convention，也有的是从左向右压，但目前几乎所有约定都是从右向左压）
（PS:拓展）
在if（condition）中，多个condition的判断也是从后向前判断，这样就会有一些很有深意的写法。
比如如下的代码：

Car* p = createCar();
if(p.speed==100 && p!=null) { }

由于无法确认p是否是空指针，所以如果直接if(p.speed==100)可能会崩，因为p为空时不存在speed变量。
正常的写法是

if(p!=null){
  if(p.speed==100){ }
}

先确认p存在，再取它的变量，但这样就会多写一些代码，没有第一种同时判断那么简洁。
但我不推荐使用第一种的写法
第二种虽然多了点代码量，但更加易读易懂易维护。tricky的写法虽然效率高，但可读性经常会比效率更加重要。

2）.Calling Convention
当Foo函数执行完成时，谁来销毁它的栈空间？
（1）Foo函数自己
（2）Foo的上级函数
两种答案都对，这就是Calling Convention。有些语言编译器会采用方法1，有些语言编译器会采用方法2。

由Caller（上级函数）来销毁空间的方法称为__cdecl，这也是C++的默认约定，参数压栈从右向左。
由Callee（函数自身）来销毁空间的方法有多种，大同小异，一般是__stdcall，参数也是从右向左压栈。

这两种方法有区别吗？为什么C++用__cdecl？
当由上级调用者销毁时，由于上级函数会先push参数，所以它知道到底push了几个参数。但如果交给函数自己销毁，它是不知道父函数push了几个参数给自己的。
所以C++可以出现 printf() 这种可变参数数量的神奇函数，而Windows API必须显式传入va_list参数（如FormatMessage）来获得变参能力。

3. 虚函数

虚函数是和类继承相辅相成的，父类里定义了虚函数，在每个子类里要对应着实现其body。

class Shape{
  virtual void draw();
} 
class triangle : Shape
class rect : Shape

=============
Shape* shapes[100];
foreach s in shapes {
  s->draw();//在汇编中是 jmp 0x12345678这种，跳到draw的地址。
}

在上面的代码中，怎么确定s->draw()是triangle的draw()，还是rect的draw()？
即如何确定 jmp 跳跃的地址？
在C++中，存在一个Virtual Table（虚表 V-table）的东西，它用来存放一个类的所有虚函数地址。
当我们定义了Shape类的时候，如下

class Shape{
  double x;
  double y;
  virtual void draw();
  virtual void move();
}

在Shape中，首地址4个字节不是x，也不是y，而是一个指向Shape的V-table的指针，通过该指针可以找到Shape的虚函数表，在它的虚函数表里，存放了draw()和move()两个函数的body的地址，可以通过这个地址去找到他们的实现。

虚函数名	地址
draw	0x12345678
move	0x87654321

在虚表中，是通过 offset 来确定是哪一个虚函数的，在上例中，draw()的offset是0，move()的offset是4。
在所有继承自Shape的类中，比如triangle和rect，他们的虚表也是一模一样的，只是虚表地址不一样。他们的虚表中也是draw()的offset是0，move()的offset是4。

所以，如何判断两个自定义类变量是同一个类型？
答：取出它们俩的首4个字节，即虚表地址，如果虚表地址相同，则是同一个类型。

关于纯虚函数 virtual void funtion1()=0
有没有虚表的问题，有人说有，有人说没有，我个人觉得有没有不影响，毕竟就算有了虚表，它的每个虚函数也是没有body的。

C/C++ 编译与函数的深度理解

1. 编译技巧

2. 函数传参

3. 虚函数

猜你喜欢

热点阅读