Python序列化和反序列化

2018-05-29  本文已影响0人  slords

Python中在对象持久化或者跨进程同步对象的时候不可避免的需要时候借助于序列化和反序列化。pickle是在该过程中十分常用的技术。借助pickle我们可以很方便的将一个对象序列化传输,再由接收端还原成所需要的对象。比如:

import pickle
import datetime
# 先实例化一个dt对象,为当前时间。
dt = datetime.datetime.now()
print('dt(%s): %s' % (object.__repr__(dt), dt))
'''
dt(<datetime.datetime object at 0x03AFBB90>): 2018-06-07 14:21:57.093318
'''
# 将dt对象序列化,成为一个bytes实例。
pickle_string = pickle.dumps(dt)
print('pickle_string:%s' % pickle_string)
'''
pickle_string:b'\x80\x03cdatetime\ndatetime\nq\x00C\n\x07\xe2\x06\x07\x0e\x159\x
01l\x86q\x01\x85q\x02Rq\x03.'
'''
# 将pickle_string反序列化成实例dt2
dt2 = pickle.loads(pickle_string)
# 两个不同的对象,但是内容一样
print('dt2(%s): %s' % (object.__repr__(dt2), dt2))
'''
dt2(<datetime.datetime object at 0x03AFBA70>): 2018-06-07 14:21:57.093318
'''

pickle在序列化和反序列化中所作的可以等效为以下代码:

def save(obj):
    # 序列化时将对象的类,对象的obj.__dict__内容记录下来
    return (obj.__class__, obj.__dict__)

def load(cls, attributes):
    # 反序列化时,使用类的cls.__new__方法返回实例,而非使用cls.__init__做进一步初始化
    # 再将保存的对象属性直接还原到新建对象上
    obj = cls.__new__(cls)
    obj.__dict__.update(attributes)
    return obj

这个可能导致以下问题:

具体对应的现实问题如下:

import pickle     
class Example(object):pass

objA = Example()
# objA序列化保存成文件
with open('objA.pickle', 'wb') as pickle_file:
    pickle.dump(objA, pickle_file)

# 读取dt.pickle文件内容,并将objA反序列化回对象并存入objB对象中
with open('objA.pickle', 'rb') as pickle_file:
    objB = pickle.load(pickle_file)
print('%s: %s' % (object.__repr__(objA), objA))
print('%s: %s' % (object.__repr__(objB), objB))
'''
<__main__.Example object at 0x05D79410>: <__main__.Example object at 0x05D79410>
<__main__.Example object at 0x05D79630>: <__main__.Example object at 0x05D79630>
'''

# 删除 class Example定义,objC反序列化失败
del Example
with open('objA.pickle', 'rb') as pickle_file:
    objC = pickle.load(pickle_file)
'''
---------------------------------------------------------------------------
AttributeError                            Traceback (most recent call last)
<ipython-input-32-cf2baa9bcff6> in <module>()
     16 del Example
     17 with open('objA.pickle', 'rb') as pickle_file:
---> 18     objC = pickle.load(pickle_file)
     19

AttributeError: Can't get attribute 'Example' on <module '__main__'>
'''

Example类:

# example.py Example类,类方法set_value更改类属性value
class Example(object):

    value = 0

    @classmethod
    def set_value(cls, value):
        cls.value = value

进程A:

# A.py A进程 间隔1秒将example的类属性value改为i,pickle序列化保存成文件并打印value值
from multiprocessing import Process
import time
import pickle
from example import Example


class A(Process):

    def __init__(self, queue):
        super(A, self).__init__()
        self.queue = queue

    def run(self):
        example = Example()
        # 间隔0.5秒将example的类属性value改为i,pickle序列化放入队列并打印value值
        for i in range(10):
            example.set_value(i)
            self.queue.put(pickle.dumps(example))
            print('Process A: %s' % example.value)
            time.sleep(0.5)

进程B:

# B.py B进程 间隔1秒将example对象用pickle反序列化从文件取出并打印value值
from multiprocessing import Process
import pickle


class B(Process):

    def __init__(self, queue):
        super(B, self).__init__()
        self.queue = queue

    def run(self):
        # 间隔1秒将example对象用pickle反序列化从队列取出并打印value值
        for i in range(10):
            example = pickle.loads(self.queue.get())
            print('Process B: %s' % example.value)

主进程:

# run.py 主进程
from A import A
from B import B
# freeze_support用于Window平台执行,Linux平台可省略
from multiprocessing import Queue, freeze_support

if __name__ == '__main__':
    # freeze_support用于Window平台执行,Linux平台可省略
    freeze_support()
    queue = Queue()
    a = A(queue)
    b = B(queue)
    a.start()
    b.start()
    a.join()
    b.join()
# 虽然每次A进程都对example对象所获取的value值进行更改
# 由于value属性时Example类型的属性所以不会被序列化
'''
Process A: 0
Process B: 0
Process A: 1
Process B: 0
Process A: 2
Process B: 0
Process A: 3
Process B: 0
Process A: 4
Process B: 0
Process A: 5
Process B: 0
Process A: 6
Process B: 0
Process A: 7
Process B: 0
Process A: 8
Process B: 0
Process A: 9
Process B: 0
'''

比如,Boost.Python在未实现__getinitargs__, __getstate__, __setstate__前,进行pickle序列化时,会抛出如下错误。

RuntimeError: Pickling of "fly.simtradding.NetEngine.ConnectorManager" instances 
is not enabled (http://www.boost.org/libs/python/doc/v2/pickle.html)

用户可以通过撰写相应的方法实现对序列化反序列化过程的自定义。

object.__getstate__()

用于反序列化状态值的获取,返回只用于还原状态。该方法在缺省状态默认返回self.__dict__

object.__setstate__(state)

用于将序列化的状态值还原到对象上。该方法在缺省状态时,state必须是一个字典,这个字典会被加入self.__dict__属性中。

应用如下:

import pickle


class Example(object):

    value = None

    def __init__(self):
        self.version = 0
        value = 0

    def __getstate__(self):
        return self.version

    def __setstate__(self, state):
        self.version = state + 1

    def __repr__(self):
        return "<Example> version:{version}, value:{value}".format(version=self.version,
                                                                   value=self.value)


if __name__ == '__main__':
    e1 = Example()
    e1.value = 1
    print('e1: %s' % e1)
    # e1的version为0,value为1
    '''
    e1: <Example> version:0, value:1
    '''
    pickle_bit = pickle.dumps(e1)
    print('pickle_bit:%s' % pickle_bit)
    # pickle序列化的时候调用__getstate__,只针对version信息做了序列化
    '''
    pickle_bit:b'\x80\x03c__main__\nExample\nq\x00)\x81q\x01K\x00b.'
    '''
    e2 = pickle.loads(pickle_bit)
    print('e2: %s' % e2)
    # pickle反序列化时将version加1并赋值,
    # 但并没有调用__init__所以value值取用类的属性值,即None。
    '''
    e2: <Example> version:1, value:None
    '''

object.__getnewargs__()

要求返回值是元组,作为当反序列化对象时,调用类型的__new__方法时传入的参数。该方法只支持位置参数。

object.__getnewargs_ex__()

要求返回值是两项的元组,当反序列化对象时,调用类型的__new__方法时传入的参数。元组的第一个是位置参数组成的元组。元组的第而个是键值参数组成的字典。该方法被定义之后object.__getnewargs__()方法就会被忽略。

object.__reduce__()

object.__reduce__不接收参数,返回一个字符串或者2~5个值组成的元组

返回一个字符串:

反序列化时,会根据字符串在命名空间中去获取字符串所对应的对象。一般用于单例。

import pickle


class Example(object):

    _instance = None

    def __new__(cls):
        if not cls._instance:
            cls._instance = super().__new__(cls)
        return cls._instance

    def __reduce__(self):
        return 'Example._instance'


if __name__ == '__main__':
    e1 = Example()
    print('e1: %s' % e1)
    '''
    e1: <__main__.Example object at 0x022463F0>
    '''
    pickle_bit = pickle.dumps(e1)
    e2 = pickle.loads(pickle_bit)
    print('e2: %s' % e2)
    '''
    e2: <__main__.Example object at 0x022463F0>
    '''
    # e2在反序列化时直接引导向了Example._instance,所以实质上e1、e2是同一个对象
返回2~5个值组成的元组:

object.__reduce_ex__(protocol)

功能与object.__reduce__()一致,protocol为协议的版本。

上一篇下一篇

猜你喜欢

热点阅读