Python 爬虫 (requests) 发送中文编码的 HTT
2018-05-20 本文已影响0人
liaozb1996
向往常一样发送POST请求出现错误
网站信息
data:image/s3,"s3://crabby-images/38597/385972d8e2f1fe07fb1146f8134cc28f4f7a00f3" alt=""
data:image/s3,"s3://crabby-images/36cd2/36cd28a33caa584e2936276a4ad3fff1b1917b65" alt=""
data:image/s3,"s3://crabby-images/16831/168319585856fdb8ced62820fc65196825938c43" alt=""
使用 requests 发送 post 请求
In [2]: import requests
In [3]: from bs4 import BeautifulSoup as BS
In [4]: url = 'http://example.com/ip/search.asp'
In [5]: data = {
...: 'loudong': '女生九栋',
...: 'fangjian': '101-1'}
In [6]: res = requests.post(url, data=data)
In [9]: res.encoding = 'gb2312'
data:image/s3,"s3://crabby-images/8f8d4/8f8d41f7c8c49f90bc8b6f108825f8a6f563441c" alt=""
使用 Wireshark 对比浏览器发送的数据和 requests 发送的数据
data:image/s3,"s3://crabby-images/11c2e/11c2ef00a601157abc06a2cc1f953c122d9f3b5e" alt=""
data:image/s3,"s3://crabby-images/9bd1a/9bd1abec77639a3a49e9ebecb5f10db508773c5e" alt=""
可以看到 loudong
的值编码后不一样:
- 浏览器 使用
gb2312
进行编码 - requests 使用
utf-8
进行编码
使用 requests 发送自己编码后的 post 请求
步骤:
- 为 HTTP Headers 手动加上
Content-Type: application/x-www-form-urlencoded
- 以字符串形式将编码后的 post 数据传给 requests 的 data 属性
- 如果表单处理的文本:enctype 的值是
application/x-www-form-urlencoded
,也是默认值- 如果表单处理的是提交文件:enctype 的值是
multipart/form-data
- enctype 表示表单提交的数据的编码方式
- 如果将字典传给 requests 的 data 属性:requests 自动为数据进行编码
- 如果将字符串传给 requests 的 data 属性:requests 会直接发送字符串数据
In [12]: from urllib.parse import urlencode
# 对 post 数据进行 gb2312 编码
In [13]: data_gb2312 = urlencode(data, encoding='gb2312')
# 在 HTTP头部 添加 application/x-www-form-urlencoded
In [14]: headers = {
...: 'Content-Type': 'application/x-www-form-urlencoded'}
In [15]: res = requests.post(url, data=data_gb2312, headers=headers)
In [16]: res.encoding = 'gb2312'
In [17]: soup = BS(res.text, 'lxml')
In [18]: for item in soup.findAll('strong'):
...: print(item.parent.parent.text.replace('\n', ''))
...:
楼栋:女生九栋
房间号-端口号:101-1
IP地址:10.0.79.2
子网掩码:255.255.255.0
默认网关:10.0.79.1
首选DNS服务器:192.168.170.254