TECH_WEBFlask大数据 爬虫Python AI Sql

WSGI服务器最简单实现

2017-09-08  本文已影响215人  彩色系

之前写过关于wsgi和web框架的东西了。现在来实现一个最简单的wsgi服务器。

所谓的wsgi服务器就是一个在socket上进行一层抽象,将二进制数据解析为符合wsgi标准的程序。

首先和建立tcp服务器一样,先监听一个端口。

address_family = socket.AF_INET
socket_type = socket.SOCK_STREAM
self.listen_socket = listen_socket = socket.socket(
    self.address_family,
    self.socket_type
)
# 允许复用一个端口
listen_socket.setsockopt(socket.SOL_SOCKET, socket.SO_REUSEADDR, 1)
# 绑定服务器地址
listen_socket.bind(server_address)

服务器是一个接收 发送数据的程序,监听完端口后需要 接收 发送数据。
这里应该是一个循环,一直在进行接收 发送。

while True:
    # 新的客户端链接,获取客户端发送的数据
    self.client_connection, client_address = listen_socket.accept()
    # 对这个客户端的请求来进行执行
    self.handle_one_request()

对这个客户端的请求该怎么做呢? 这时就需要对数据进行解析了。由于这个一个wsgi服务器,解析成wsgi需要的格式。

这里需要把请求的路径 方法 和http协议的版本号拿出来。构造environ

env['wsgi.version']      = (1, 0)
env['wsgi.url_scheme']   = 'http'
env['wsgi.input']       = io.StringIO(self.request_data.decode())
env['wsgi.errors']       = sys.stderr
env['wsgi.multithread']  = False
env['wsgi.multiprocess'] = False
env['wsgi.run_once']     = False
# 必须的变量
env['REQUEST_METHOD']    = self.request_method    # 
env['PATH_INFO']         = self.path              # 客户端请求的路径
env['SERVER_NAME']       = self.server_name       # 
env['SERVER_PORT']       = str(self.server_port)  # 

这时请求基本就构造完毕了。

wsgi的接口是这样子的(environ, start_response)
还需要写一个start_response 构造响应头的函数。将构造好的响应在下一个函数里发送给客户端
这里只需要做这一句就好了
self.headers_set = [status, response_headers + server_headers]

在最后发送数据之前还需要一步,传入environ start_response 对application进行调用。

result = self.application(env, self.start_response)


最后一步,将这些数据变成二进制发送到客户端。

self.client_connection.sendall(response)

当然这只是一个最简化的wsgi服务器。一般只是调试使用。线上一般使用的是gunicorn

Gunicorn 使用pre-worker的工作模式。一个master进程管理若干个worker。所谓的
pre-worker指的就是在程序的一开始就把工作的进程启动。这样子就减少了动态切换的
开销。
在arbiter中能看到

def run(self):
    "Main master loop."
    self.start()
    util._setproctitle("master [%s]" % self.proc_name)

    try:
        self.manage_workers()

在启动中有两个很重要的函数 start 和 manage_workers
其中start用来初始化。主要是初始化 signal对象, 建立socket。

然后就是manage_workers()
用来管理工作进程,上面也说道了 master是管理工作进程,具体的执行master是不关心的。
这也就给了我们比较大的灵活性,我们能够自己来选择 使用同步 还是 异步。。。

if len(self.WORKERS.keys()) < self.num_workers:
self.spawn_workers()

这里有一个numworkers值,master维持着这么多的工作进程

workers = self.WORKERS.items()
# 按照工作进程的生成时间排序 干掉旧的进程
workers = sorted(workers, key=lambda w: w[1].age)
while len(workers) > self.num_workers:
    (pid, _) = workers.pop(0)
    self.kill_worker(pid, signal.SIGTERM)



spawn_workers是spawn_worker上的一层简单的封装。具体的实现在spawn_worker中


worker = self.worker_class(self.worker_age, self.pid, self.LISTENERS,
                           self.app, self.timeout / 2.0,
                       self.cfg, self.log)

这里的worker_class 是真正的工作进程。这里的worker_class可以是同步的 异步的。。
具体的worker_class在 workers文件夹下,同步的worker都继承了一个抽象类。

def __init__(self, age, ppid, sockets, app, timeout, cfg, log):
    """\
    This is called pre-fork so it shouldn't do anything to the
    current process. If there's a need to make process wide
    changes you'll want to do that in ``self.init_process()``.
    """
    self.age = age
    self.pid = "[booting]"
    self.ppid = ppid
    self.sockets = sockets
    self.app = app
    self.timeout = timeout
    self.cfg = cfg
    self.booted = False
    self.aborted = False
    self.reloader = None

这里接入参数。 在同步的这个worker这里继承。

workerworker

这里真正的去接收请求 返回响应。其他种类的worker也是如此。

现在对gunicorn只是一个简单的阅读。能学到的好的设计方法就是定义一个公共的抽象基类。使用模版的概念。

wsgi服务器完整代码

上一篇 下一篇

猜你喜欢

热点阅读