python处理json格式数据
json模块提供了一种很简单的方式来编码和解码JSON数据。编码过程是把python对象转换为JSON对象的一个过程,解码过程是把json对象转换为python对象的一个过程。
编码过程使用json.dumps()或json.dump()函数。区别是dumps是将python对象生成一个JSON格式的字符串,而dump是将python对象转换成JSON对象,并将JSON对象通过fp文件对象写入文件中。
>>> help(json.dumps)
Help on function dumps in module json:
dumps(obj, *, skipkeys=False, ensure_ascii=True, check_circular=True, allow_nan=True, cls=None, indent=None, separators=None, default=None, sort_keys=False, **kw)
Serialize ``obj`` to a JSON formatted ``str``.
其中ensure_ascii,如果dict内含有非ASCII字符,则会出现类似“\uXXXX”的格式显示数据,设置为false,就能正常显示了。
JSON规范的数据格式对于Python语法而已几乎是完全一样的,略有不同的是python中True会被映射为JSON格式中的true,False会被映射为false,None会被映射为null,元组()和列表[]会被映射为数组array,字典dict被映射为object。如下表所示
为了遵循JSON规范,你应该只编码Python的lists 和dictionaries。对于dictionaries,keys需要是字符串类型(字典中任何非字符串类型的key在编码时会先转换为字符串)。
>>> content={'a':None,'b':True,'c':False,'d':(1,2),'e':'中'}
>>> type(content)
<class 'dict'>
>>> content_str=json.dumps(content)
>>> content_str
'{"a": null, "b": true, "c": false, "d": [1, 2], "e": "\\u4e2d"}'
>>> json.dumps(content,ensure_ascii=False)
'{"a": null, "b": true, "c": false, "d": [1, 2], "e": "中"}'
>>>
从上面看出,dumps函数可以把特定的对象序列化处理为字符串。而dump函数用来写入文件
>>> with open('D:\\json.txt','w') as fp:
... json.dump(content,fp=fp,indent=4) #按照indent显示空白,格式化显示
...
在notepad中查看结果为
解码过程常用的两个函数是json.load()和json.loads()函数。区别跟dump()和dumps()一样。
>>> help(json.loads)
Help on function loads in module json:
loads(s, *, encoding=None, cls=None,object_hook=None, parse_float=None, parse_int=None, parse_constant=None,object_pairs_hook=None, **kw)
Deserialize ``s`` (a ``str``, ``bytes`` or ``bytearray`` instance
containing a JSON document) to a Python object.
其中,encoding指定编码格式。
可以把外形和list和dict类似的JSON格式的字符串反序列化为python对象中的list和dict。
>>> json_str='{"a": null,
"c": false, "b": true, "e": "中","d": [1,2]}'
>>> json.loads(json_str)
{'a': None, 'c': False, 'b': True, 'e': '中','d': [1, 2]}
>>> type(content)
>>> with open("D:\\json.txt",'r') asfp:
... print(json.load(fp))
...
{'a': None, 'b': True, 'c': False, 'd': [1, 2], 'e': '中'}
>>>
上述提到的序列化和反序列化是这么一个概念呢?
把内存中的变量变成可存储或可传输的过程称为序列化,内存中的变量序列化后,可以把序列化后的内容写入磁盘,或者通过网络传输到其他机器上。反过来,把变量内容从序列化的对象重新读入到内存中称为反序列化。
Json模块中主要使用dumps和dump方法将任意对象序列化为一个str,然后将str写入文件进行保存。该模块实现反序列化使用的是loads方法或load方法,当把序列化后的文件从磁盘上读取为一个str,就可以使用loads方法将str反序列化为对象,或者直接使用load方法将文件直接反序列化为对象。
假如我们在不同的编程语言中传递对象,把对象序列化为标准格式是关键,如xml、json,这些格式很容易在网络上传输,而且被各种编程语言读取解析。