hello world的底层原理

2018-12-01  本文已影响14人  tracy_668

hello world是我们学习一门语言的第一个程序,一直很好奇这个程序底层到底是怎么执行起来的呢?今天就让我们一探究竟:

#include<stdio.h>
int main()
{
  printf("hellow world \n");
} 

编译链接: gcc hello.c,生成了a.out文件,

 gcc hello.c 
wusong@ubuntu:~/cTest/hellotest$ ls
a.out  hello.c

查看a.out, 使用objdump -h a.out

 objdump -h a.out

a.out:     file format elf64-x86-64

Sections:
Idx Name          Size      VMA               LMA               File off  Algn
  0 .interp       0000001c  0000000000400238  0000000000400238  00000238  2**0
                  CONTENTS, ALLOC, LOAD, READONLY, DATA
  1 .note.ABI-tag 00000020  0000000000400254  0000000000400254  00000254  2**2
                  CONTENTS, ALLOC, LOAD, READONLY, DATA
  2 .note.gnu.build-id 00000024  0000000000400274  0000000000400274  00000274  2**2
                  CONTENTS, ALLOC, LOAD, READONLY, DATA
  3 .gnu.hash     0000001c  0000000000400298  0000000000400298  00000298  2**3
                  CONTENTS, ALLOC, LOAD, READONLY, DATA
  4 .dynsym       00000060  00000000004002b8  00000000004002b8  000002b8  2**3
                  CONTENTS, ALLOC, LOAD, READONLY, DATA
  5 .dynstr       0000003d  0000000000400318  0000000000400318  00000318  2**0
                  CONTENTS, ALLOC, LOAD, READONLY, DATA
  6 .gnu.version  00000008  0000000000400356  0000000000400356  00000356  2**1
                  CONTENTS, ALLOC, LOAD, READONLY, DATA
  7 .gnu.version_r 00000020  0000000000400360  0000000000400360  00000360  2**3
                  CONTENTS, ALLOC, LOAD, READONLY, DATA
  8 .rela.dyn     00000018  0000000000400380  0000000000400380  00000380  2**3
                  CONTENTS, ALLOC, LOAD, READONLY, DATA
  9 .rela.plt     00000030  0000000000400398  0000000000400398  00000398  2**3
                  CONTENTS, ALLOC, LOAD, READONLY, DATA
 10 .init         0000001a  00000000004003c8  00000000004003c8  000003c8  2**2
                  CONTENTS, ALLOC, LOAD, READONLY, CODE
 11 .plt          00000030  00000000004003f0  00000000004003f0  000003f0  2**4
                  CONTENTS, ALLOC, LOAD, READONLY, CODE
 12 .plt.got      00000008  0000000000400420  0000000000400420  00000420  2**3
                  CONTENTS, ALLOC, LOAD, READONLY, CODE
 13 .text         00000192  0000000000400430  0000000000400430  00000430  2**4
                  CONTENTS, ALLOC, LOAD, READONLY, CODE
 14 .fini         00000009  00000000004005c4  00000000004005c4  000005c4  2**2
                  CONTENTS, ALLOC, LOAD, READONLY, CODE
 15 .rodata       00000011  00000000004005d0  00000000004005d0  000005d0  2**2
                  CONTENTS, ALLOC, LOAD, READONLY, DATA
 16 .eh_frame_hdr 00000034  00000000004005e4  00000000004005e4  000005e4  2**2
                  CONTENTS, ALLOC, LOAD, READONLY, DATA
 17 .eh_frame     000000f4  0000000000400618  0000000000400618  00000618  2**3
                  CONTENTS, ALLOC, LOAD, READONLY, DATA
 18 .init_array   00000008  0000000000600e10  0000000000600e10  00000e10  2**3
                  CONTENTS, ALLOC, LOAD, DATA
 19 .fini_array   00000008  0000000000600e18  0000000000600e18  00000e18  2**3
                  CONTENTS, ALLOC, LOAD, DATA
 20 .jcr          00000008  0000000000600e20  0000000000600e20  00000e20  2**3
                  CONTENTS, ALLOC, LOAD, DATA
 21 .dynamic      000001d0  0000000000600e28  0000000000600e28  00000e28  2**3
                  CONTENTS, ALLOC, LOAD, DATA
 22 .got          00000008  0000000000600ff8  0000000000600ff8  00000ff8  2**3
                  CONTENTS, ALLOC, LOAD, DATA
 23 .got.plt      00000028  0000000000601000  0000000000601000  00001000  2**3
                  CONTENTS, ALLOC, LOAD, DATA
 24 .data         00000010  0000000000601028  0000000000601028  00001028  2**3
                  CONTENTS, ALLOC, LOAD, DATA
 25 .bss          00000008  0000000000601038  0000000000601038  00001038  2**0
                  ALLOC
 26 .comment      00000035  0000000000000000  0000000000000000  00001038  2**0
                  CONTENTS, READONLY

可以看到目标文件格式是分类存储的,分成了很多段,从左到右,第一列(Idx Name)是段的名字,第二列(Size)是大小 ,LMA表示装载内存地址,VMA表示虚拟内存地址,File off是文件内的偏移。

基础知识

从你写的源代码到执行你的程序,一般经历了这几个过程:
源代码编辑 -> 编译 -> 链接 -> 装载 -> 执行编译,简单说就是用编译工具,将你的源码,变成可以执行的二进制代码,也叫做目标文件,当然只是对应某一种硬件平台,比如此处我用的是Intel的X86系列的CPU,编译出来的,就是针对X86的二进制代码。链接就是将多个目标文件合并为一个目标文件,称作可执行文件。 在上面的可执行文件中有很多section,最常见和基础的段有:

“text”段:代码段,就是CPU要运行的指令代码。

“data”段:数据段,保存了源代码中的数据,一般是以初始化的数据。

“bss”段:也是数据段,存放那些未初始化的数据,因为这些数据还未分配空间,所以单独存放。

段一般可以分为loadable和allocatable, loadable,可加载,就是,原先目标文件里面包含对应的代码或数据,所以,装载器要把这些内容,load到对应的地址,以便程序可以运行;而allocatable,可分配的,最简单理解就是上面提到的.bss段,那里记录了变量名,到时候,你要给这些变量名分配内存空间。

链接器和装载器的作用
链接器
  1. 将LMA写到(可执行的)二进制文件里面去
  2. 解析符号。将不同的符号,根据符号表中的信息,转换为对应的地址,这里只涉及VMA,即程序运行时的地址。
Loader,装载器
  1. 从二进制文件中读出对应的段的信息,比如text,data,bss等段的信息,将内容拷贝到对应的LMA的地址处。
  2. 如果发现VMA!=LMA, 即 程序运行时候的地址,和刚刚把程序内容拷贝到的地址LMA,两者不一样,
    那么就要把对应的内容,此处主要是data,数据段的内容,从刚刚装载到的位置,LMA处,拷贝到VMA处.这样,程序运行的时候,才能够在执行的时候,找到对应的VMA处的变量,才能找到对应的值,程序才能正常运行。

最后再看看.text段到底是存了什么东西呢?objdump -s a.out (-s 表示查看目标文件十六进制格式)

......
Contents of section .fini:
 4005c4 4883ec08 4883c408 c3                 H...H....       
Contents of section .rodata:
 4005d0 01000200 68656c6c 6f20776f 726c6420  ....hello world 
 4005e0 00  
......                  

貌似我们能看懂的也就是rodata只读数据段中的hello,world,那我们反汇编看下,objdump -d a.out , 它输出文件的汇编形式,下面列出主要的main函数部分,其实在main函数执行前后,有很多工作要做,比如初始化函数执行环境等。

0000000000400526 <main>:
 400526:       55                      push   %rbp
 400527:       48 89 e5                mov    %rsp,%rbp
 40052a:       48 83 ec 10             sub    $0x10,%rsp
 40052e:       c7 45 fc 05 00 00 00    movl   $0x5,-0x4(%rbp)
 400535:       bf d4 05 40 00          mov    $0x4005d4,%edi
 40053a:       e8 c1 fe ff ff          callq  400400 <puts@plt>
 40053f:       b8 00 00 00 00          mov    $0x0,%eax
 400544:       c9                      leaveq
 400545:       c3                      retq
 400546:       66 2e 0f 1f 84 00 00    nopw   %cs:0x0(%rax,%rax,1)
 40054d:       00 00 00

左边是十六进制形式,右边是汇编形式,至于汇编代码,这里不赘述。

上一篇下一篇

猜你喜欢

热点阅读