使用协程写出高并发

2021-08-03 本文已影响0人小志Codings

什么是协程

简单来说，协程是一种基于线程之上，但又比线程更加轻量级的存在。对于系统内核来说，协程具有不可见的特性。因此，这种由程序员自己写程序来管理的轻量级线程称作“用户空间线程”。

协程较多线程的优点

1、线程的控制权在操作系统上，而协程的控制权完全掌握在用户手中，因此利用协程可以减少程序运行时的上下文切换，有效提高程序的运行效率。

2、建立线程时，系统默认分配给线程的栈大小是1M，而协程更轻量，只是接近1k。因此，可以在相同的内存中开启更多的协程。

3、由于协程的本质不是多线程，而是单线程。因此，不需要多线程锁的机制，因为只有一个线程，也不存在同时写变量造成的冲突。在协程中控制共享资源不需要加锁，只需要判断状态即可。所以协程的执行效率比线程高很多，同时也有效避免了多线程中的竞争关系。

协程的优点与缺点

优点：协程适用于那些需要被阻塞，且大量并发的场景。

缺点：协程不适用于需要大量计算的场景（因为协程的本质是单线程来回切换），因此，是不可能使用单线程去计算。

理解同步、异步、阻塞与非阻塞

IO操作

IO分为两个阶段（一旦拿到数据后就变成数据操作，不再是IO）：

1、数据准备阶段

2、内核空间复制数据到用户进程缓冲区（用户空间）阶段

在操作系统中，程序运行的空间分为内核空间与用户空间。应用程序都是运行在用户空间的，因此它们操作的数据也在用户空间。

阻塞IO与非阻塞IO的区别在于第一步发起IO请求是否被阻塞，如果被阻塞直到完成，那么这就是传统的阻塞IO，如果不阻塞，那么就是非阻塞IO。

阻塞与非阻塞是针对进程访问数据的时候，根据IO操作的就绪状态来采取的不同方式，说白了就是读取或写入操作方法的实现方式，阻塞方式下读取或写入函数，将一直在等待，而非阻塞方式下，读取或写入函数会立即返回一个状态值。

同步I/O与异步I/O

image

(手绘同步IO图)上图所展示的内容为同步I/O图。

同步IO与异步IO的区别就在于第二个步骤是否阻塞，如果不阻塞，而是操作系统帮你完成IO操作再返回结果，那么就是异步IO。

同步和异步是针对应用程序和内核交互而言的，同步指的是用户进程触发IO操作并等待或轮询的查看IO操作是否就绪；而异步则指的是用户进程触发IO操作以后便开始做自己的事情，而当IO操作已经完成的时候会得到IO完成的通知。

image

上图所展示的是异步IO的模型图。

阻塞IO与非阻塞IO

阻塞指的是I/O操作需要彻底完成后才能返回用户空间。阻塞IO模型如下图所示：

image

非阻塞IO操作是指被调用后立即返回一个值，无需等待I/O操作彻底完成。非阻塞I/O模型，如下图所示：

image

同步与异步（线程间调用）

同步与异步对于调用者与被调用者，它们是线程之间的关系，两个线程要么是同步的，要么是异步的。

同步操作时，调用者需要等待被调用者返回结果，才会进行下一步操作。

异步操作时，调用者不需要等待被调用者返回调用，即可进行下一步操作，被调用者通常依靠事件、回调等机制来通知调用者结果。

阻塞与非阻塞（线程内调用）

阻塞与非阻塞是对同一个线程来说的，在某个时刻，线程要么处于阻塞状态，要么处于非阻塞状态。

阻塞和非阻塞关注的是程序在等待调用结果（消息和返回值）的状态。

阻塞调用指的是得到返回的调用结果之前，当前线程会被挂起。调用线程只有在等到结果之后才继续执行。

非阻塞调用指的是在没有得到调用的返回结果之前，该调用不会阻塞当前线程。

基于http框架的httpx

requests中实现的http请求是同步请求，但基于http请求IO阻塞的特性，非常适用协程来实现“异步”的http请求。

httpx是一个继承了所有requests特性并且支持异步http请求的库。可以认为httpx是加强版的requests。

安装方法

pip install httpx

实践

我们可以分别使用httpx的同步与异步的方法对url发起批量的请求，然后进行耗时比较。

同步http请求的具体代码，如下所示：

import httpx
import threading
import time


def sync_main(url, sign):
    response = httpx.get(url).status_code
    print(f'sync_main：{threading.current_thread()}: {sign} : {response}')

sync_start = time.time()
[sync_main(url='https://www.baidu.com', sign=i) for i in range(200)]
sync_end = time.time()
print(sync_end-sync_start)

运行结果，如下所示：

sync_main：<_MainThread(MainThread, started 12368)>: 195 + 200
sync_main：<_MainThread(MainThread, started 12368)>: 196 + 200
sync_main：<_MainThread(MainThread, started 12368)>: 197 + 200
sync_main：<_MainThread(MainThread, started 12368)>: 198 + 200
sync_main：<_MainThread(MainThread, started 12368)>: 199 + 200
12.657010078430176

一共耗时12秒左右。

异步http请求的具体代码，如下所示：

import asyncio
import httpx
import threading
import time

client = httpx.AsyncClient()

async def async_main(url, sign):
    response = httpx.get(url).status_code
    print(f'async_main： {threading.current_thread()}: {sign}: {response}')


loop = asyncio.get_event_loop()
task = [async_main('http://www.baidu.com', sign=i) for i in range(200)]
async_start = time.time()
loop.run_until_complete(asyncio.wait(task))
async_end = time.time()
loop.close()
print(async_end-async_start)

运行结果，如下所示：

async_main： <_MainThread(MainThread, started 10948)>: 82: 200
async_main： <_MainThread(MainThread, started 10948)>: 144: 200
async_main： <_MainThread(MainThread, started 10948)>: 21: 200
async_main： <_MainThread(MainThread, started 10948)>: 83: 200
async_main： <_MainThread(MainThread, started 10948)>: 145: 200
10.82936143875122

一共耗时10秒左右。

同样是向百度这个网址发送200次的请求，异步http比同步http快了2秒左右，效率也是得到了提升。

小结

使用协程发送请求，顺序一定是乱的，因为程序在协程间不停的切换，但是主线程并没有切换，协程的本质就是单线程。

本篇文章的主要内容是要理解同步、异步、阻塞与非阻塞的概念，在后面的文章中我会与爬虫结合。

文章的每一个字，都是我用心敲出来的，只希望对得起每一位关注我的人。

点个再看，让我知道，我的文章对你是真的有收获！

使用协程写出高并发

什么是协程

协程较多线程的优点

协程的优点与缺点

理解同步、异步、阻塞与非阻塞

IO操作

同步I/O与异步I/O

阻塞IO与非阻塞IO

同步与异步（线程间调用）

阻塞与非阻塞（线程内调用）

基于http框架的httpx

安装方法

实践

小结

猜你喜欢

热点阅读