使用协程写出高并发

2021-08-03  本文已影响0人  小志Codings

什么是协程

简单来说,协程是一种基于线程之上,但又比线程更加轻量级的存在。对于系统内核来说,协程具有不可见的特性。因此,这种由程序员自己写程序来管理的轻量级线程称作“用户空间线程”。

协程较多线程的优点

1、线程的控制权在操作系统上,而协程的控制权完全掌握在用户手中,因此利用协程可以减少程序运行时的上下文切换,有效提高程序的运行效率。

2、建立线程时,系统默认分配给线程的栈大小是1M,而协程更轻量,只是接近1k。因此,可以在相同的内存中开启更多的协程。

3、由于协程的本质不是多线程,而是单线程。因此,不需要多线程锁的机制,因为只有一个线程,也不存在同时写变量造成的冲突。在协程中控制共享资源不需要加锁,只需要判断状态即可。所以协程的执行效率比线程高很多,同时也有效避免了多线程中的竞争关系。

协程的优点与缺点

优点:协程适用于那些需要被阻塞,且大量并发的场景

缺点:协程不适用于需要大量计算的场景(因为协程的本质是单线程来回切换),因此,是不可能使用单线程去计算。

理解同步、异步、阻塞与非阻塞

IO操作

IO分为两个阶段(一旦拿到数据后就变成数据操作,不再是IO):

1、数据准备阶段

2、内核空间复制数据到用户进程缓冲区(用户空间)阶段

在操作系统中,程序运行的空间分为内核空间与用户空间。应用程序都是运行在用户空间的,因此它们操作的数据也在用户空间。

阻塞IO与非阻塞IO的区别在于第一步发起IO请求是否被阻塞,如果被阻塞直到完成,那么这就是传统的阻塞IO,如果不阻塞,那么就是非阻塞IO。

阻塞与非阻塞是针对进程访问数据的时候,根据IO操作的就绪状态来采取的不同方式,说白了就是读取或写入操作方法的实现方式,阻塞方式下读取或写入函数,将一直在等待,而非阻塞方式下,读取或写入函数会立即返回一个状态值

同步I/O与异步I/O

image

(手绘同步IO图)上图所展示的内容为同步I/O图。

同步IO与异步IO的区别就在于第二个步骤是否阻塞,如果不阻塞,而是操作系统帮你完成IO操作再返回结果,那么就是异步IO。

同步和异步是针对应用程序和内核交互而言的,同步指的是用户进程触发IO操作并等待或轮询的查看IO操作是否就绪;而异步则指的是用户进程触发IO操作以后便开始做自己的事情,而当IO操作已经完成的时候会得到IO完成的通知

image

上图所展示的是异步IO的模型图。

阻塞IO与非阻塞IO

阻塞指的是I/O操作需要彻底完成后才能返回用户空间。阻塞IO模型如下图所示:

image

非阻塞IO操作是指被调用后立即返回一个值,无需等待I/O操作彻底完成。非阻塞I/O模型,如下图所示:

image

同步与异步(线程间调用)

同步与异步对于调用者与被调用者,它们是线程之间的关系,两个线程要么是同步的,要么是异步的。

同步操作时,调用者需要等待被调用者返回结果,才会进行下一步操作。

异步操作时,调用者不需要等待被调用者返回调用,即可进行下一步操作,被调用者通常依靠事件、回调等机制来通知调用者结果。

阻塞与非阻塞(线程内调用)

阻塞与非阻塞是对同一个线程来说的,在某个时刻,线程要么处于阻塞状态,要么处于非阻塞状态。

阻塞和非阻塞关注的是程序在等待调用结果(消息和返回值)的状态。

阻塞调用指的是得到返回的调用结果之前,当前线程会被挂起。调用线程只有在等到结果之后才继续执行。

非阻塞调用指的是在没有得到调用的返回结果之前,该调用不会阻塞当前线程。

基于http框架的httpx

requests中实现的http请求是同步请求,但基于http请求IO阻塞的特性,非常适用协程来实现“异步”的http请求。

httpx是一个继承了所有requests特性并且支持异步http请求的库。可以认为httpx是加强版的requests。

安装方法

pip install httpx

实践

我们可以分别使用httpx的同步与异步的方法对url发起批量的请求,然后进行耗时比较。

同步http请求的具体代码,如下所示:

import httpx
import threading
import time


def sync_main(url, sign):
    response = httpx.get(url).status_code
    print(f'sync_main:{threading.current_thread()}: {sign} : {response}')

sync_start = time.time()
[sync_main(url='https://www.baidu.com', sign=i) for i in range(200)]
sync_end = time.time()
print(sync_end-sync_start)

运行结果,如下所示:

sync_main:<_MainThread(MainThread, started 12368)>: 195 + 200
sync_main:<_MainThread(MainThread, started 12368)>: 196 + 200
sync_main:<_MainThread(MainThread, started 12368)>: 197 + 200
sync_main:<_MainThread(MainThread, started 12368)>: 198 + 200
sync_main:<_MainThread(MainThread, started 12368)>: 199 + 200
12.657010078430176

一共耗时12秒左右。

异步http请求的具体代码,如下所示:

import asyncio
import httpx
import threading
import time

client = httpx.AsyncClient()

async def async_main(url, sign):
    response = httpx.get(url).status_code
    print(f'async_main: {threading.current_thread()}: {sign}: {response}')


loop = asyncio.get_event_loop()
task = [async_main('http://www.baidu.com', sign=i) for i in range(200)]
async_start = time.time()
loop.run_until_complete(asyncio.wait(task))
async_end = time.time()
loop.close()
print(async_end-async_start)

运行结果,如下所示:

async_main: <_MainThread(MainThread, started 10948)>: 82: 200
async_main: <_MainThread(MainThread, started 10948)>: 144: 200
async_main: <_MainThread(MainThread, started 10948)>: 21: 200
async_main: <_MainThread(MainThread, started 10948)>: 83: 200
async_main: <_MainThread(MainThread, started 10948)>: 145: 200
10.82936143875122

一共耗时10秒左右。

同样是向百度这个网址发送200次的请求,异步http比同步http快了2秒左右,效率也是得到了提升。

小结

使用协程发送请求,顺序一定是乱的,因为程序在协程间不停的切换,但是主线程并没有切换,协程的本质就是单线程。

本篇文章的主要内容是要理解同步、异步、阻塞与非阻塞的概念,在后面的文章中我会与爬虫结合。

文章的每一个字,都是我用心敲出来的,只希望对得起每一位关注我的人。

点个再看,让我知道,我的文章对你是真的有收获!

上一篇下一篇

猜你喜欢

热点阅读