第二章 Java 内存区域与内存泄露

2018-12-18  本文已影响0人  Yue_Q

一. 运行时数据区

   Java 虚拟机在执行 Java 程序的过程中会把所管理的内存划分为几个若干不同的数据区,这些区域都有各自的用途,以及创建和销毁的时间,有的区域随着虚拟机进程的启动而存在,有的区域则依赖用户线程的启动和结束而建立和销毁。java 虚拟机所管理的内存将会包括以下几个运行时数据区域:

图片.png

1) 程序计数器

  程序计数器是一块较小的内存空间,它可以看作是当前线程所执行的字节码的行号指示器,在虚拟机的概念模型中,字节码解释器工作时就是通过改变这个计数器的值选取下一条需要执行的字节码指令,分支,循环,条状,异常处理,线程恢复等基础功能都需要依赖这个计数器完成。
  由于 java 虚拟机的多线程是通过线程轮流切换并分配处理器执行时间来实现的,在任何一个时刻,一个处理器都只会执行一条线程中的指令。因此,为了线程切换后能恢复到正确的位置,每条线程都要有一个独立的程序计数器,各条线程之间计数器互不影响,独立存储,我们称这类内存区域为“线程私有”的内存。
  如果线程正在执行一个 Java 方法,这个计数器记录的是正在执行的虚拟机字节码指示器:如果正在执行的是一个 Native 方法,这个计数器的值为空,此内存区域是唯一一个在 Java 虚拟机规范中没有规定任何的(OutOfMemoryError)的情况

2) Java 虚拟机栈

  与程序计数器一样,Java 虚拟机栈也是线程私有的,它的生命周期与线程相同,虚拟机栈描述的是 Java 方法的内存模型:每个方法执行时都会创建一个栈帧用于存储局部变量表,操作数栈,动态链接,方法出口等信息。每一个方法从调用直至执行完成的过程,就对应着一个栈帧在虚拟机栈中入栈到出栈的过程。
  经常有人把Java内存区分为堆内存和栈内存,这种分法比较粗糙,Java 内存区域的划分实际上远比这复杂。这种划分方式的流行只能说明大部分程序员最关注的,与对象内存分配关系最密切的内存区是这两块。其中所指的 “堆” 笔者在后面会专门讲述,而所指的“栈”就是现在将的虚拟机栈,或者说是虚拟机栈中的局部变量表部分。
  局部变量表存放了编译期可知的各种基本数据类型(boolean,byte,char,short,int,float,long,double),对象的引用(reference类型,它不等同于对象本身,可能是一个指向对象起始地址的引用指针,也可能是指向一个代表对象的句柄或其他与此对象相关 的位置)和 returnAddress 类型(指向了一条字节码指令的地址)
  其中64位长度的 long 和 double 类型的数据会占用2个局部变量空间,其余的数据类型只占有1个。局部变量表所需的内存空间在编译期间完成分配,当进入一个方法时,这个方法需要在帧中分配多大的局部变量空间是完全确定的,在方法运行期间不会改变局部变量表的大小。
  在Java虚拟机规范中,对这个区域规定了两种异常情况,如果线程请求的栈深度大于虚拟机所允许的深度,将抛出 StackOverflowError 异常;如果虚拟机栈可以动态扩展(当前大部分的Java虚拟机都可动态扩展,只不过Java虚拟机规范中也允许固定长度的虚拟机栈),如果扩展时无法申请到足够的内存,就会抛出 OutOfMemoryuError 异常

3) 本地方法栈

  本地方法栈与虚拟机栈所发挥的作用是非常相似,它们之间的区别不过是虚拟机栈为虚拟机执行 java 方法(也就是字节码服务),而本地方法栈则为虚拟机使用到的 Native 方法服务,在虚拟机规范中本地方法栈中方法使用的语言,使用方式与数据结构并没有强制规定,因此具体的虚拟机可以自由实现它。甚至有的虚拟机(譬如Sun HotSpot 虚拟机)直接就把本地方法栈和虚拟机栈合二为一。与虚拟机栈一样本地方法栈区域也会抛出 StackOverflowErrorOutOfMemoryError 异常。

4) Java 堆

  对于大多数应用来说,Java 堆是Java虚拟机管理的内存中最大的一块。Java 堆是被有线程共享的一块内存区域,在虚拟机启动时创建,此内存区域的唯一目的就是存放对象实例,几乎所有的对象实例都在这里分配内存。这一点在Java虚拟机规范中的描述是:所有的对象实例以数组都要在堆上分配但是随着 JIT 编译器 的发展与逃逸分析技术逐渐成熟,栈上分配,标量替换优化技术将会导致一些微妙的变化发生,所有的对象都分配在堆上也渐渐变得不是那么‘’绝对‘’
  Java 堆是垃圾收集器管理的主要区域,因此很多时候也被称作“GC堆”。从内存回收的角度来看,由于现在收集器基本都采用分代收集算法,所以 Java 堆中还可以细分为:新生代和老生代;在细致一点有 Eden 空间From Survivor 空间To Survivor 空间等。从内存分配的角度来看,线程共享的Java堆中可能划分出多个线程私有的分配缓冲区。不过无论如何分配,都与存放内容无关,无论那个区域。在本章中,我们仅仅针对内存区的左右进行讨论,Java堆中的上述各个区域的分配,回收等细节第3章讨论。
  根据 Java 虚拟机规范规定,Java 堆可以处于物理上不连续的内存空间中,只要逻辑上是连续的即可,就像我们的磁盘一样。在实现时,既可以实现成固定的大小,也可以是可扩展的,不过当前主流的虚拟机都是按照可扩展来实现的(通过 -Xmx 和 -Xms 控制)。如果在堆中没有内存完成实例分配,并且堆也无法扩展时,将抛出 OutOfMeoryError异常。

5) 方法区

  方法区与 Java 堆是一样,是各个线程共享的内存区域,它用于存储已被虚拟机加载类信息,常量,静态变量,及时编译器变异后的代码等数据。虽然 Java 虚拟机规范把方法区描述为堆的一个逻辑部分,但是它却有一个别名 Non-Heap(非堆),目的应该是与 Java 堆区分开来。
  对于习惯在 HotSpot 虚拟机上开发,部署程序的开发者来说,很多人更愿意方法区称为“永久代”,本质上两者并不等价,仅仅因为HotSpot 虚拟机设计团队选择把 GC 分代收集扩展至方法区,或者说使用永久代来实现方法区而已,这样 HotSpot 的垃圾收集器可以像管理 Java 堆一样管理这部分内存,能够省去专门的方法区编写内存管理代码工作。对于其他虚拟机(如 BEA JRockit,IBM J9等),来说是不存在永久代的概念。原则上,如何实现方法区属于虚拟机实现细节,不受虚拟机规范约束,但使用永久代实现方法区,并不是一个好主意,因为这样更容易造成内存溢出的问题(永久代有 -XX:MaxPermSize 的上限,J9 和 JRockit 只要没有触碰到进程可用内存上限,例如 32 位系统中的 4GB ,就不会出现问题),而且有极少数方法(如 String.intern())会因为这个原因导致不同的虚拟机有不同的表现。因此,对于 HotSpot 虚拟机,根据官方发布的路线图信息,现在也有放弃永久代逐步改为采用 Native Memory 来实现方法区的规划了,在目前已经发布的JDK 1.7 的 HotSpot 中,已经把原来放在永久代的字符串常量池移出
  Java 虚拟机规范对方法区的限制非常宽松,除了和 Java 堆一样不需要连续的内存和可以选择固定大小或者可扩展外,还可以选择不实现垃圾收集。相对而言,垃圾收集行为在这个区域比较少出现,但并非数据进入了方法区就如永久代名字一样“永久”存在了。这区域的内存回收目标主要是针对常量池的回收和对类型的卸载,一般来说,这个区域的回收“成绩”比较难以令人满意,尤其是类型的卸载,条件相当苛刻,但是这部分区域的回收确实有必要。在 sun 公司的 BUG 列表中,曾出现过若干严重的 BUG 就是由于低版本的 HotSpot 虚拟机对此区域未完全回收而导致的泄露。
  根据 Java 虚拟机规范规定,当方法区无法满足内存分配需求时,将抛出 OutOfMemoryError 异常。

6) 运行时常量池

   运行时常量池是方法区的一部分。Class 文件中除了有类版本,字段,方法,接口等描述信息外,还有一项信息是常量池,用于存放编译期生成的各种字面量和符号引用,这部分内容将在类加载后进入方法区的运行时常量池存放
  Java 虚拟机对 Class 文件每一部分(包括常量池)的格式都有严格规定,每一个字节用于存储那种数据都必须符合规范上的要求才会被虚拟机认可,装载和执行,但对于运行时常量池,Java 虚拟机规范没有任何细节的要求,不同的提供商实现的虚拟机可以按照自己的需要来实现这个内存区域。不过,一般来说,除了保存 Class 文件描述的符号引用外,还会把翻译出来的直接引用也存储在运行时常量池中
  运行时常量池相对于 Class 文件常量池的另一个重要的特征是具备动态性,Java 语言并不要求常量池一定只有编译期才能生成,也就是并非与置入 Class 文件中常量池的内容才能进入方法区运行常量池,运行期间也可能将新的常量放入池中,这种特性被开发人员利用得比较多的便是 String 类的 intern() 方法。
  既然运行时常量池是方法区分的一部分,自然收到方法区的内存限制,当常量池无法再申请到内存时会抛出 OutOfMemoryError 异常。


二、 对象的创建

2.1 对象创建的过程

指针碰撞(Bump the Pointer):假如 Java 堆中的内存是绝对规整的,所有用过的内存放在一边,没有用过的内存放在一边,中间放着一个指针作为分界点的指示器,那么所分配的内存就仅仅是把那个指针向空闲空间那边挪动一段与对象大小相等的距离。
空闲列表 (Free List):如果 Java 堆中的内存并不是规整的,已使用过的内存与空闲内存相互交错,那就没有办法简单进行指针碰撞,虚拟机必须维护一个列表,记录那些内存块是可用的,在分配的时候从列表中找到一块足够大的空间划分给对象实例。

  1. CAS 配上失败重试的方式保证更新操作的原子性
  2. 内存分配的动作按照线程划分在不同空间之中进行,即每个线程在 Java 堆中预先分配一小块内存,称为本地线程缓冲(TLAB)。那个线程要分配内存就在那个线程的TLAB上分配,只有TLAB用完分配新的TLAB时,才需要同步锁定。虚拟机是否使用TLAB,可以通过 -XX:+/-UseTLAB 参数来设定

(1) 这个对象是那个类的实例
(2)类的元数据信息
(3) 对象的哈希码
(4) 对象的GC分代年龄信息

2.2 对象的内存布局

  在 HotSpot 虚拟机中,对象在内存中存储的布局可以分为 3 块区域,对象头(Header),实例数据(Instance Data),对齐填充(Padding)

2.2.1 HotSpot 对象头

   HotSpot 对象头包括两部分信息。

  • 存储对象自身运行时数据哈希码、GC分代年龄、所状态标志、线程持有的锁、偏向线程ID、偏向时间戳等,官方称作“Mark Word”。对象头信息是与对象自身定义的数据无关的额外存储成本Mark Word 被设计称一个非常固定的数据结构以便在极小的空间内存中存储更多信息,它会根据对象的状态服用自己的存储空间。
  • 类型指针:即对象指向它的类元数据指针,虚拟机通过这个指针来确定这个对象是那个类的实例,并不是所有的虚拟机实现都必须在对象数据上保留类型指针,查找对象的元数据信息并不一定要经过对象本身。如果对象是一个数组,那么对象头中还必须有一块记录数组长度的数据。

2.2.1 实例数据

  实例部分是对象真正存储的有效信息,也就是程序代码中定义的各种类型的字段内容。无论从父类继承下来的,还是在子类中定义的,都需要记录下来。这部分的存储顺序会受到虚拟机分配策略参数和字段中在 Java 源码中定义的顺序的影响。HotSpot 虚拟机默认的分配策略为 long/double、ints、shorts/chars、bytes/booleans、oops,从分配策略中可以看出,相同宽度的字段总是分配到一起。在满足这个提前条件的情况下,在父类中定义的变量会出现子类之前。如果 ComactFields 为 true,那么子类之中较窄的变量也可能插入到父类变量的空隙中。

2.2.1 对象的访问定位

  建立对象是为了使用对象,我们的 Java 程序需要通过上的 reference 数据来操作堆上的具体对象。由于 reference 类型在 Java 虚拟机规范中只规定了一个指向对象的引用,并没有定义这个引用应该通过何种方式去定位、方位堆中对象的具体位置,所以对象访问方式也是取决于虚拟机实现而定的。目前主流的访问方式有使用句柄直接指针两种方式。

句柄Java 堆中将划分出一块内存来作为句柄池,reference 中存储的就是对象的句柄地址,而句柄中包含了对象实例数据类型数据各自的具体地址信息

句柄方式访问对象.png

直接指针Java 堆对象的布局中就必须考虑如何放置访问类型数据的相关信息,而 reference 中存储的直接就是对象地址

通过直接指针访问.png

两者的优点

  使用句柄:最大的好处是 reference 中存储的是稳定的句柄地址,在对象被移动(垃圾收集时移动对象是非常普遍的行为)时只会改变句柄中的实例数据指针,而 reference 本身不需要修改
  直接指针:最大的好处是速度快,它节省了一次指针定位的时间开销,由于对象的访问在 Java 中非常频繁,因此这类开销积少成多后也是一项非常客观的执行成本。
  就 Sun HotSpot 而言,他使用的是直接指针,但从整个软件开发的范围开看,各种语言和框架使用句柄来访问的情况十分常见。

上一篇下一篇

猜你喜欢

热点阅读