Python爬虫（七）数据处理方法之JSON

2019-06-08 本文已影响0人咸甜怪

什么是JSON

JSON 指的是 JavaScript 对象表示法（JavaScript Object Notation），是轻量级的文本数据交换格式，且具有自我描述性，更易理解。
JSON看起来像python类型（列表，字典）的字符串。

数据处理

在之前的文章中，我们说到了怎么用response的方法，获取到网页正确解码后的字符串。如果还有不懂的，可以先阅读Python爬虫（三）Requests库。接下来以有道翻译为例子，说说怎么通过网页解码后的字符串，提取到翻译结果。

json.loads()

首先我们先来看下，通过response.content.decode()解码之后得到的是什么类型的数据。通过打印出来type可以看到，我们解码之后得到的是str类型的数据。 response解码之后为字符串.png 若想进一步提取数据，则需要将str转换成python中的字典，python的json库为我们提供了json.loads()用于将str类型的数据转成dict。其用法为：

import json
json.loads(json字符串)

再结合上述有道翻译的例子，得到字典类型的返回结果，并提取出来翻译结果。

import requests
import json

url = 'http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule'
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.119 Safari/537.36'}
data = {'i': '人生苦短，我用python',
        'from': 'AUTO',
        'to': 'AUTO',
        'smartresult': 'dict',
        'client': 'fanyideskweb',
        'salt': '15598805838805',
        'sign': '601e9410133b355529e58d23a6c60578',
        'ts': '1559880583880',
        'bv': '565657d9b2f836d2c4c3a1fd81d7b3c3;',
        'doctype': 'json',
        'version': '2.1',
        'keyfrom': 'fanyi.web',
        'action': 'FY_BY_CLICKBUTTION'
        }
response = requests.post(url, data=data, headers=headers)
html_str = response.content.decode()
#将字符串转换成字典
dict_json = json.loads(html_str)
#打印转换之后的数据以及数据类型
print(dict_json)
print(type(dict_json))
#获取翻译结果
ret = dict_json['translateResult'][0][0]['src']
print('翻译结果是：',ret)

执行结果如下：

获取翻译结果.png

json.dumps()
当我们对爬虫数据进行处理时，当然不希望它们仅仅是显示出来，还希望把提取到的数据保存起来。但是当我们在把字典类型的数据写入文本时，是写入不成功的。这个时候就需要将字典类型转换成字符串，再写入到文本之中，json.dumps()的作用就是实现这一功能。

在上述例子中，我们将得到的dict_json直接写入文本，会出现如下报错：TypeError: write() argument must be str, not dict。 dict直接写入文本.png 为了能够将字典类型的数据，转换成str字符串，则需要用json.dumps()，其用法如下：

import json
json.dumps(字典)

将上述例子的dict_json换成str字符串，再写入文本中。

import requests
import json

url = 'http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule'
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.119 Safari/537.36'}
data = {'i': '人生苦短，我用python',
        'from': 'AUTO',
        'to': 'AUTO',
        'smartresult': 'dict',
        'client': 'fanyideskweb',
        'salt': '15598805838805',
        'sign': '601e9410133b355529e58d23a6c60578',
        'ts': '1559880583880',
        'bv': '565657d9b2f836d2c4c3a1fd81d7b3c3;',
        'doctype': 'json',
        'version': '2.1',
        'keyfrom': 'fanyi.web',
        'action': 'FY_BY_CLICKBUTTION'
        }
response = requests.post(url, data=data, headers=headers)
#将字符串转换成字典
dict_json = json.loads(html_str)
#将字典转换成字符串并写入fnayi.txt文件中
fanyi_str = json.dumps(dict_json)
with open('fanyi.txt', 'w') as f:
    f.write(html_str)

执行完上述的程序，会得到一个fanyi.txt的文件，其结果如下：{"type": "ZH_CN2EN", "errorCode": 0, "elapsedTime": 1, "translateResult": [[{"src": "\u4eba\u751f\u82e6\u77ed\uff0c\u6211\u7528python", "tgt": "Life is too short, I use python"}]]}。这样子的一份文档，中文部分显示的是二进制，且格式非常不利于阅读，这并不是我们想要的结果。好在json.dumps()为我们提供的两个方法，以帮助我们更好阅读文档。
1.ensure_ascii，能够让中文显示成中文；
2.indent，能够让下一行在第一行的基础上空格。
其用法如下：

fanyi_str = json.dumps(dict_json, ensure_ascii=False, indent=2)
with open('fanyi.txt', 'w', encoding='utf-8') as f:
    f.write(fanyi_str)

输出结果如下：

格式化后的输出.png

json.loads()、json.load()、json.dump()以及json.dumps的区别
在输入json.loads()时，PyCharm自动提示中，还有另外一个json.load()。好奇之下，就整理了一下json.loads()、json.load()、json.dump()以及json.dumps的区别，感兴趣的可以通过Python爬虫之json.loads()、json.load()、json.dump()以及json.dumps的区别查看。

Python爬虫（七）数据处理方法之JSON

什么是JSON

数据处理

猜你喜欢

热点阅读