多线程与多进程
多进程
在Linux系统下,有一个非常特殊的函数,fork()
。它调用一次,返回两次,操作系统自动把当前进程(父进程)复制了一份(子进程),然后分别在父进程和子进程内返回。子进程永远返回0,父进程返回子进程的ID。经过这样做,父进程就能fork出很多子进程,并可以记录下子进程的ID号了,子进程可以通过getppid()
来获取父进程ID。fork()
仅在Unix/Linux下使用,windows则不行。 所以,在Python中,存在一个跨平台的包mutiprocessing
,通过引入包中的Process
类,就可以创建多进程程序了,可以创建一个进程p=Process(target=func,args=(*,))
,然后利用p.start()及p.join()
来执行了。以上的join()方法可以等待子进程结束后才往下执行,通常用于进程间同步。 另外,可以用进程池的方式,例如p=Pool(n)
,然后p.apply_async(func,args)
,这里可以使用n种不同的参数传入,建立不同的进程。用这种方式时,在调用join()方法前,要先调用close()方法,使得不能再添加新进程。 mutiprocessing包里提供了Queue、Pipe等多种进程间通信的方法。可以直接引入Queue
类,然后实例化一个对象。则不同的进程可以使用put方法发信息,同时可以使用get方法取信息。
多线程
多个任务可以创建多个进程来完成,同时也可以创建多个线程来完成,线程是操作系统直接的执行单元。 Python含有threading
这个高级模块,要启动一个线程,就是把一个函数传出并创建Thread实例,然后调用start()方法开始执行,例如t=threading.Thread(target=func,name=*)
,注意这里的name属性,它是给线程命名的,缺省值为Thread-1···。要注意的是,刚才说了,任何一个进程都含有一个线程,而这个主线程则执行着我们编写的程序,可以调用threading.current_thread().name
来查看它,它的名字就叫MainThread。 在多线程编程中,有一个最大的问题就在于进程内的资源被各个线程所共享,进程内任何变量都可以被任何一个线程修改,因此,线程之间若去修改同一个变量,则可能导致程序Bug。所以,引入了锁机制。 当某个线程去修改某个变量时,可以在变量所在的方法内加一把锁,使得其他线程不能同时执行该方法,只有释放了锁后,其他线程才能去获得锁并获得修改权。创建一个锁是通过lock=threading.Lock()
来实现的,可以使用try···finally···
语句,在try之前使用lock.acquire()
获得锁,然后在try语句里面修改变量,然后在finally语句里加lock.release()
来保证锁一定被释放,避免成为一个死锁。
区别于联系
多进程的优点是稳定性好,一个子进程崩溃了,不会影响主进程以及其余进程。但是缺点是创建进程的代价非常大,因为操作系统要给每个进程分配固定的资源,并且,操作系统对进程的总数会有一定的限制,若进程过多,操作系统调度都会存在问题,会造成假死状态。多线程优点是效率较高一些,但是致命的缺点是任何一个线程崩溃都可能造成整个进程的崩溃,因为它们共享了进程的内存资源池。 对于任务数来说,无论是多进程或者多线程,都不能太多。因为操作系统在切换任务时,会有一系列的保护现场措施,这要花费相当的系统资源,若任务过多,则大部分资源都被用做干这些了,结果就是所有任务都做不好,所以操作系统会限制进程的数量。 另外,考虑计算密集型及IO密集型应用程序。对于计算密集型,多任务势必造成资源浪费。对于IO密集型,因为IO速度远低于CPU计算速度,所以使用多任务方式可以大大增大程序运行效率。