为什么 Python 多线程无法利用多核?

2020-11-09  本文已影响0人  木叶苍蓝

为什么 Python 多线程无法利用多核?
全局解释器锁(Global Interpreter Lock)是计算机程序设计语言解释器用于同步线程的一种机制,它使得任何时刻有且仅有一个线程在执行。
即便在多核处理器上,使用GIL的解释器也只允许同一时间执行一个线程,常见的使用GIL的解释器有CPython 和 Ruby MRI。
可以看到GIL并不是Python独有的特性,是解释型语言处理多线程问题的一种机制而非语言特性。

Python 的解释器
Python 是一门解释器语言,代码通过解释器执行,Python存在多种解释器,分别基于不同语言开发,每个解释器有不同的特点。
Python 程序的解释和执行过程简图:

CPython 的线程是不安全
Cpython的线程操作系统的原生线程,在Linux的pthread完全由操作系统调度实现。
pthread本身不是线程安全的,需要使用者通过锁来实现多线程的安全运行,因此CPython解释器下Python实现多线程也必然存在线程不安全的问题。
这也就为GIL在多核时代的使用埋下了隐患。
GIL产生背景和挑战
Python是Guido van Rossum在1989年发布的,那个时候计算机的主频还没有达到1G,程序全部都是运行在单核计算机上面,直到2005年多核处理器才被 Intel 开发出来。

多核化对软件系统的冲击

戈登·摩尔1965年预测,每个集成电路的元件数量每18到24个月就会翻一倍,它的适用性预计会持续到2015年-2020年。
摩尔定律未失效前软件系统可以单纯借助硬件的进步来获得性能上的提升或者只需少量改进,就可以坐享性能飞跃。
然而从2005年开始,时钟速率的增长和晶体管的数量的增长已不再同步。
由于处理器材料的物理性质限制,时钟速率已停止增长甚至下降,处理器制造商开始将更多执行单元核心封装到单个芯片中。
这一趋势给应用程序开发和编程语言设计带来越来越大的压力。
程序员和编程语言决策者不得不考虑如何快速适应多核硬件,来提高软件性能和编程语言的市场占有率,Python 也不例外受到冲击。

多核化对CPython的冲击

在单核时代,崇尚优美,清晰,简单的吉多·范罗苏姆选择在解释器层面实现了一把全局互斥锁,来保护Python 对象而实现对单核CPU的使用率,这种做法在单核时代很奏效。
倘若在单核时代未选择GIL,那么开发者就需要自己实现任务的管理,这样做对于CPU的利用率提高无法做到极致。
但是随着多核时代的到来,高效的利用CPU核心的有效方法就是使用并行性,多线程是充分实现并行的好方法,但是CPython的GIL却阻碍了对多核CPU的利用。

痛并快乐着的GIL

CPython 的GIL给使用者带来了便利,并且在GIL的基础上开发了许多重要的Package和语言功能。
但是多核CPU的普适和其他语言对Python的冲击,让GIL显的原始而粗暴,无法有效利用多核处理器成为了弊端。
多核时代GIL暴露的问题
要搞清楚GIL对多线程程序的影响就要了解GIL运行基本原理。

单核CPU情况

CPyhon的Pthread是通过操作系统调度算法调度执行的。
Python解释器每执行一定数量的字节码,或遇到系统IO时,会强制释放GIL,然后触发一次操作系统的线程调度,实现单核CPU的充分利用,并且在单核上释放和重新执行的时间间隔非常短。

多核CPU情况

多核情况下多线程执行时,一个线程在CPU-A执行完之后释放GIL,其他CPU上的线程都会进行竞争,但CPU-A可能又马上获取到了GIL。
这就导致其他CPU上被唤醒的线程只能眼巴巴地看着CPU-A上的线程再次执行,而自己只能等待,直到又被切换到待调度的状态。
这就会产生多核CPU频繁进行线程切换,消耗着资源,但只有一个线程能够拿到GIL真正执行Python代码,这就导致多线程在多核CPU情况下,效率还不如单线程执行效率高。
这种情况非常类似于网络编程中的多个线程监听同一个端口造成的惊群现象,只不过是CPU级别的,造成的浪费更加奢侈。
GIL的实际影响

上一篇 下一篇

猜你喜欢

热点阅读