Java并发 Java内存模型 happens-before原则

2019-08-03 本文已影响0人 baiiu

1. 两个关键问题

并发编程中，需要处理两个关键问题：线程之间如何通信和线程之间如何同步。
通信是指线程之间怎样交换信息。同步是指怎样控制不同线程间操作发生的相对顺序。

在命令式编程中，线程之间的通信机制有两种：共享内存和消息传递。

在共享内存的并发模型里，线程之间共享程序的公共状态，通过写-读内存中的公共状态进行隐式通信；并且它的同步也是显示进行的，必须显示指定某段代码需要在线程之间互斥执行。
在消息传递的并发模型里，线程之间没有公共状态，必须通过发送消息来显示进行通信；但是他的同步是隐式进行的，因为消息的发送必须在消息的接收之前。

Java的并发采用的是共享内存模型。接下来我们去理解Java是怎样解决这两个的问题的。即Java的线程之间是如何通信、同步的。

2. Java内存模型

虚拟机运行时数据区域

从Java运行时数据区域我们知道，方法区和堆是由所有线程共享的数据区域。虚拟机栈、本地方法栈和程序计数器是线程私有的内存。

Java线程之间的通信由Java内存模型(JMM)控制。JMM决定了一个线程对共享变量的写入何时对另一个线程可见。
JMM的主要目标是定义程序中各个变量的访问规则，即在虚拟机中将变量存储到内存和从内存中取出变量这样的底层细节。
JMM定义了线程和主内存之间的抽象关系：线程之间的共享变量存储在主内存中，每个线程都有一个私有的本地内存，本地内存中存储了该线程以读/写共享变量的副本。

本地内存是JMM的一个抽象概念，并不真实存在。它涵盖了缓存、写缓冲区、寄存器以及其他的硬件和编译器优化。 对应虚拟机栈中的部分区域。

Java内存模型的抽象结构示意图

线程、主内存、工作内存三者关系

线程A与线程B怎样通信呢：

线程A把本地内存A中更新过的共享变量刷新到主内存中
线程B到主内存中去读取线程A之前已更新过的共享变量

JMM通过控制主内存和每个线程的本地内存之间的交互，来保证内存的可见性。

3. 重排序

在执行程序时，编译器和处理器会对指令进行重排序以提高性能。

重排序分3种类型：

编译器优化的重排序。
编译器在不改变单线程程序语义的前提下可以重新安排语句的执行顺序。
指令级并行的重排序。
指令级并行处理技术可以将多条指令重叠执行，如果不存在数据依赖，处理器可以改变语句对应机器指令的执行顺序。
内存系统的重排序。
处理器可能因为使用缓存和读/写缓冲区，这使得加载和存储操作看上去可能是乱序执行。

从源代码到最终执行的重排序过程

这些重排序可能会导致多线程程序出现内存可见性问题：
1. 编译器重排序(第1种类型)规则可以禁止特定类型的编译型重排序。
2. 处理器重排序(第2、3种类型)，JMM的处理器重排序规则会要求编译器在生成指令序列时插入指定的内存屏障指令(Memory Barriers)来禁止指令重排序。

数据依赖性
编译器和处理器在重排序时，会遵守数据依懒性，不会对存在数据依懒关系的操作进行重排序。

数据依懒性
as-if-serial语义
不管怎么重排序(执行顺序或者并行处理)，程序的执行结果都不能被改变。编译器、runtime和处理器都必须遵守该语义。
因为有了该语义，给程序员制造了一种幻觉：线程内是按照程序的顺序来执行的，但实际上会优化、会并行，但遵守了happens-before原则。即该语义使得在线程内编码时无需担心重排序、无需担心可见性问题。

4. 内存交互操作和内存屏障

Java 内存模型定义了 8 个操作来完成主内存和工作内存的交互操作。

内存模型的8个操作

read（读取）：作用于主内存变量，把一个变量值从主内存传输到线程的工作内存中，以便随后的load动作使用
load（载入）：作用于工作内存的变量，它把read操作从主内存中得到的变量值放入工作内存的变量副本中。
use（使用）：作用于工作内存的变量，把工作内存中的一个变量值传递给执行引擎，每当虚拟机遇到一个需要使用变量的值的字节码指令时将会执行这个操作。
assign（赋值）：作用于工作内存的变量，它把一个从执行引擎接收到的值赋值给工作内存的变量，每当虚拟机遇到一个给变量赋值的字节码指令时执行这个操作。
store（存储）：作用于工作内存的变量，把工作内存中的一个变量的值传送到主内存中，以便随后的write的操作。
write（写入）：作用于主内存的变量，它把store操作从工作内存中一个变量的值传送到主内存的变量中。
lock（锁定）：作用于主内存的变量，把一个变量标识为一条线程独占状态。
unlock（解锁）：作用于主内存变量，把一个处于锁定状态的变量释放出来，释放后的变量才可以被其他线程锁定。

Java内存模型还规定了在执行上述八种基本操作时，必须满足如下规则：

不允许read和load、store和write操作之一单独出现
不允许一个线程丢弃它的最近assign的操作，即变量在工作内存中改变了之后必须同步到主内存中。
不允许一个线程无原因地（没有发生过任何assign操作）把数据从工作内存同步回主内存中。
一个新的变量只能在主内存中诞生，不允许在工作内存中直接使用一个未被初始化（load或assign）的变量。即就是对一个变量实施use和store操作之前，必须先执行过了assign和load操作。
一个变量在同一时刻只允许一条线程对其进行lock操作，lock和unlock必须成对出现
如果对一个变量执行lock操作，将会清空工作内存中此变量的值，在执行引擎使用这个变量前需要重新执行load或assign操作初始化变量的值
如果一个变量事先没有被lock操作锁定，则不允许对它执行unlock操作；也不允许去unlock一个被其他线程锁定的变量。
对一个变量执行unlock操作之前，必须先把此变量同步到主内存中（执行store和write操作）。

这8种内存访问操作很繁琐，后文会使用一个等效判断原则，即先行发生（happens-before）原则来确定一个内存访问在并发环境下是否安全。
根据happens-before原则在多线程环境下，需要插入内存屏障来确保同步的安全性。

JMM把内存屏障指令分为4类：

内存屏障类型

StoreLoad Barriers是一个全能型屏障，它同时具有其他3个屏障的效果。

5. happens-before原则

JMM使用happens-before的概念来阐述操作之间的内存可见性。
如果一个操作的执行结果对另一个操作可见，那么这两个操作之间必须存在happen-bofore关系。这两个操作可以是指同一个线程、也可以是不同线程。
这个原则非常重要，它是判断数据是否存在竞争、线程是否安全的主要依据，依靠这个原则，可以几条规则一揽子解决并发环境下两个操作之间是否可能存在冲突的所有问题。
JMM把happens-before要求禁止的重排序分为了下面两类：
1. 会改变程序执行结果的重排序，JMM要求编译器和处理器必须禁止这种重排序
2. 不会改变程序执行结果的重排序，则JMM不做要求
  
  JMM设计示意图
这样设计既能满足编码时候根据happens-before清晰保证线程同步，也能使编译器和处理器能最大的优化程序(重排序，只要不影响结果就行)。比如锁消除等优化操作。
happens-before规则
1. 单一线程原则 Single Thread rule：
  在一个线程内，在程序前面的操作先行发生于后面的操作。
2. 管程锁定规则 Monitor Lock Rule
  一个 unlock 操作先行发生于后面对同一个锁的 lock 操作
3. volatile 变量规则 Volatile Variable Rule
  对一个 volatile 变量的写操作先行发生于后面对这个变量的读操作
4. 线程启动规则 Thread Start Rule
  Thread 对象的 start() 方法调用先行发生于此线程的每一个动作
5. 线程加入规则 Thread Join Rule
  Thread 对象的结束先行发生于 join() 方法返回
6. 线程中断规则 Thread Interruption Rule
  对线程 interrupt() 方法的调用先行发生于被中断线程的代码检测到中断事件的发生，可以通过 interrupted() 方法检测到是否有中断发生。
7. 对象终结规则 Finalizer Rule
  一个对象的初始化完成（构造函数执行结束）先行发生于它的 finalize() 方法的开始
8. 传递性 Transitivity
  如果操作 A 先行发生于操作 B，操作 B 先行发生于操作 C，那么操作 A 先行发生于操作 C。

参考：
Java并发
 深入理解