程序员Java学习笔记

JVM 庖丁解牛 - 类文件结构实例分析

2017-03-13  本文已影响509人  RunAlgorithm

1.流程

2.结构详解

2.1 Class 文件格式

2.1.1 概述

结构:Class 文件 == 8位字节为单位的二进制流 == 无符号数 + 表

特点:

文件格式:

类型 名称 数量
u4 magic 1
u2 minor_version 1
u2 major_version 1
u2 constant_pool_count 1
cp_info constant_pool constant_pool-1
u2 access_flags 1
u2 this_class 1
u2 super_class 1
u2 interfaces_count 1
u2 interfaces interfaces_count
u2 fields_count 1
field_info fields fields_count
u2 methods_count 1
method_info methods methods_count
u2 attributes_count 1
attribute_info attributes attributes_count

2.2 魔数和版本

2.2.1 概述

2.2.2 数据分析

魔术和版本对应数据

2.2.3 表

Class 文件的版本表

编译器版本 -target参数 十六进制版本号 十进制版本号(主版本号.次版本号)
JDK 1.7.0 不带(默认 -target 1.7) 00 00 00 33 51.0
JDK 1.7.0 -target 1.6 00 00 00 32 50.0
JDK 1.8.0 不带(默认 -target 1.8) 00 00 00 34 52.0

2.3 常量池(常量表集合)

2.3.1 概述

特点:

主要类型:

作用:

无论是字段表、方法表还是属性表,只要涉及到一些常量或者描述,都会有个索引指向该表的某个位置

2.3.2 数据分析

在 class 中的二进制数据

常量池的二进制数据

Methodref,是方法的符号引用,比如虚拟机调用 invokespecial 指令会用到,比如该类的初始化方法字节码指令中有这么一条

    1: invokespecial #1

这样会实例化 #1 的方法,而 #1 是 java.lang.Object 的初始化方法,所以该指令执行了 Object 的初始化
Fieldref,是字段的符号引用,比如虚拟机调用 putfield 指令会去解析该符号引用

    7: putfield #3    

这样的话会把该符号引用对应的变量,设置为栈帧中的值
NameAndType,字段或者方法的描述,有名称和描述符组合起来
Class,表示一个类的全限定名
String,表示一个字符串常量
Utf8,使用 utf-8 格式编码的字符串,最后其他类型的常量都会指向这些值,这是最基本的常量值

Class 文件加载后,常量池的字面量和符号引用会被存入方法区,多个线程共享。方法区又称为永久带,GC 基本不在方法区进行垃圾回收。但也会有,比如一些废弃的常量和无用的类

2.4 访问标志

2.4.1 概述

识别类或接口层次的访问信息

u2类型=2个字节=16位可用,目前只定义了8个,可见后面的访问标志表

2.4.2 数据分析

在 class 中的二进制信息

访问标志二进制数据

该值为 0x21 = 0x01| 0x20

0x01 => ACC_PUBLIC
0x20 => ACC_SUPER

对照访问标志表,可知是一个普通的 public 类
使用 JDK 1.0.2 之后编译出来的类的 ACC_SUPER 均为真

2.4.3 访问标志表

标志名称 标志值 含义
ACC_PUBLIC 0x0001 是否public类型
ACC_FINAL 0x0010 是否final类型,只有类可用
ACC_SUPER 0x0020 JDK1.2 之后必须为真
ACC_INTERFACE 0x0200 标记是接口
ACC_ABSTRACT 0x400 是否abstract类型,接口或抽象类为真,其他类为假
ACC_SYNTHETIC 0x1000 标记类不是用户代码产生
ACC_ANNOTATION 0x2000 标记是注解
ACC_ENUM 0x4000 标记是枚举

2.5 索引集合

2.5.1 概述

分为三种类型用来确定整个类的继承关系,属于类的元数据

根据规则,每个类只能有一个父类,但可以有多个接口
而更特殊的 java.lang.Object 是没有父类的,毕竟是所有类的基类,所以有且仅有 Object 类的父类索引为 0

2.5.2 数据分析

在 class 中的二进制信息

索引集合二进制数据

这个索引用来表示该类的全限定名

这个索引用来表示该类父类的全限定名,所以该类的父类就是 java/lang/Object

2.6 字段表集合

2.6.1 概述

范围:包含类级、实例级变量,不包括方法内部声明的局部变量

信息:

使用标记表示

用常量表示

2.6.2 数据分析

字段表集合二进制数据

descriptor_index => 0x0007
索引对应常量池第7个常量,所以描述符为 “Ljava/lang/String;”

    Constant pool
        #6 = Utf8       Ljava/lang/String;  

attribute_count => 0x0001
所以该字段有一个属性,接下来就是详细的 attribute_info 数据,表示该字段的属性
attribute_name_index => 0x0008
索引对应常量池第8个常量,属性名称为 “constantvalue”

    Constant pool
        #8 = Utf8       constantvalue    

该属性用来通知虚拟机自动为静态变量赋值。这个发生在类的加载过程中的初始化阶段。关于类变量,初始化的时候会给默认值,但如果有 Constantvalue 属性,就会用这个属性的值来对类变量进行初始化
attribute_length => 0x00000002
constantvalue 的该值固定为 2,因为后面需要 u2 类型的数据来指向常量池,表示该 constantvalue 的值
constantvalue_index => 0x0002,索引对应常量池第2个常量,值为 “Hello World!”

    Constant pool
        #2 = String     #21
        #21 = Utf8      Hello World!    

实际上,用代码进行比较的话,上面字段对应 Java 源码为

    private final String text = "Hello World!";    

在编译成 class 文件后,我们可以解析到这样的结果

    flags: ACC_PRIVATE ACC_FINAL
    name: text
    descriptor: Ljava/lang/String;
    attributes:
        constantvalue:HelloWorld!

在 Java 中用 static 和 final 修饰的字段,即该类的常量字段。在 Java 编译阶段的常量传播优化中,如果 B 只引用了 A 的常量,编译后 A 的常量会被转化为 B 的常量,存入 B 类的常量池里。所以,常量传播优化后,使用者 B 就会拥有 A 的常量,对 A 常量的引用在 Class 文件中成为对自己的常量的引用

2.6.3 表

字段表(field_info):

类型 名称 数量
u2 access_flag 1
u2 name_index 1
u2 descriptor_index 1
u2 attributes_count 1
attribute_info attributes attributes_count

字段访问标志(access_flag):

标志名称 标志值 含义
ACC_PUBLIC 0x0001 是否 public
ACC_PRIVATE 0x0002 是否 private
ACC_PROTECTED 0x0004 是否 protected
ACC_STATIC 0x0008 是否 static
ACC_FINAL 0x0010 是否 final
ACC_VOLATILE 0x0040 是否 volatile
ACC_TRANSIENT 0x0080 是否 transient
ACC_SYNTHETIC 0x1000 是否 synthetic
ACC_ENUM 0x4000 是否 enum

描述符(descriptor):

标识字符 含义
B 基本类型 byte
C 基本类型 char
D 基本类型 double
F 基本类型 float
I 基本类型 int
J 基本类型 long
S 基本类型 short
Z 基本类型 boolean
V 特殊类型 void
L 对象类型,如 Ljava/lang/Object

数组每一维度用 “[” 来描述

比如

类的字段和方法都由两部分来表示,即名称和描述符(NameAndType)

2.7 方法表集合

2.7.1 概述

特点:

特征签名 => 一个方法中各个参数在常量池中的字段符号的引用集合,不包含返回值

2.7.2 数据分析

方法表集合二进制数据

descriptor_index => 0x000A
方法描述符为常量表第10个常量,也是 Utf8 类型,为 “()V”

    Constant pool
        #10 = Utf8      ()V    

attribute_count => 0x0001
属性数量为 1。从这个可知,该方法有一个属性。
基本上所有方法都至少有一个属性 “Code” 用来记录方法中编译后的字节码指令。也可以说,方法中的代码编译成字节码指令后都被存入了 “Code” 属性中了
attribute_name_index => 0x000B
常量表第11个常量,也是 Utf8 类型,就是 “Code” 属性

    Constant pool
        #11 = Utf8      Code    

attribute_length => 0x0000003D
表示接下来的 61 个字节就是 “Code” 属性表的内容了,关于这个属性表的解析在后面
使用 javap 可以得出详细的解析结果如下:

javap的解析结果

2.7.3 表

方法表(method_info):

类型 名称 数量
u2 access_flags 1
u2 name_index 1
u2 descriptor_index 1
u2 attributes_count 1
attribute_info attributes attributes_count

方法访问标志(access_flag):

标志名称 标志值 含义
ACC_PUBLIC 0x0001 是否为 public
ACC_PRIVATE 0x0002 是否为 private
ACC_PROTECTED 0x0004 是否为 protect
ACC_STATIC 0x0008 是否为 static
ACC_FINAL 0x0010 是否为 final
ACC_SYNCHRONIZED 0x0020 是否为 synchronized
ACC_BRIDGE 0x0040 是否为编译器产生的桥接方法
ACC_VARARGS 0x0080 是否接受不定参数
ACC_NATIVE 0x0100 是否为 native
ACC_ABSTRACT 0x0400 是否为 abstract
ACC_STRICTFP 0x0800 是否为 strictfp
ACC_SYNTHETIC 0x1000 是否为编译器自动产生的

2.8 属性表集合

2.8.1 概述

上面已经有用到两种属性,字段用到 constantvalue 用来表示是一个常量,方法用到了 code 来记录方法的字节码指令集合

特点:

2.8.2 基本结构

类型 名称 数量
u2 attribute_name_index 1
u4 attribute_length 1
u1 info attribute_length

每个属性的名称都要从常量池中拿一个 Utf8 类型的常量。属性的内容为 attribute_length 个 info 组成,每个 info 由一个字节组成。所以属性的组成是很灵活的,如何解释这些 info,有虚拟机的标准,也可以完全自定义。但虚拟机在解析的时候,只取自己标准的那部分

2.8.3 几个主要属性

2.8.3.1 Code 属性

使用在方法表中,用来表示代码编译成的字节码指令

具体的结构为

类型 名称 数量
u2 attibute_name_index 1
u4 attribute_length 1
u2 max_stack 1
u2 max_locals 1
u4 code_length 1
u1 code code_length
u2 exception_table_length 1
exception_info exception_table exception_length
u2 attributes_count 1
attribute_info attributes attributes_count

现在拿类第一个方法表的 Code 属性来进行分析

第一个方法表的 code 属性二进制数据

因为该方法比较简单,没有异常等。如果有异常,Code 属性中还会有异常表 Exception table

2.8.3.2 LineNumberTable 属性

用处

LineNumberTable 具体的结构为

类型 名称 数量
u2 attribute_name_index 1
u4 attribute_length 1
u2 line_number_table_length 1
line_number_info line_number_table line_number_table_length

line_number_info 由 start_pc 和 line_number 组成,分别表示字节码行号和源码行号

现在拿上面的方法的 LineNumberTable 属性数据来进行分析

第一个方法的 Code 属性的 LineNumberTable 的二进制数据

使用 javap 解析到方法 “<init>” 的完整 LineNumberTable 表如下

javap解析到的结果

有了这些class文件中有了这些信息,我们就可以进行断点调试了。所以断点调试是依赖于方法表中是否有设置 LineNumberTable 属性

2.8.3.3 LocalVariableTable 属性

用处

LocalVariableTable 具体的结构为

类型 名称 数量
u2 attribute_name_index 1
u4 attribute_length 1
u2 local_variable_table_length 1
local_variable_info local_variable_table local_variable_table_length

local_variable_info 的结构为

类型 名称 数量
u2 start_pc 1
u2 length 1
u2 name_index 1
u2 descriptor_index 1
u2 index 1

用第一个方法表的 code 属性的 LocalVariableTable 属性数据来分析

第一个方法表的 code 属性的 LocalVariableTable 属性的二进制数据
2.8.3.4 ConstantValue 属性

该属性在 2.6.2 对字段 “text” 的解析中已经提到,具体的作用是通知虚拟机初始化静态变量

目前类变量的初始化有两种方式

上一篇下一篇

猜你喜欢

热点阅读