Python 工作笔记

lxml和requests问题记录

2019-01-16 本文已影响0人 txfly

lxml里面xpath获取结果不完整解决办法

去掉html里面内容为\x00的部分

r = requests.get(url)
body = r.text.strip().replace('\x00', '').encode('utf8') or b'<html/>'
root = etree.fromstring(body, parser=etree.HTMLParser(recover=True, encoding='utf8'))
root.xpath(...)

request传输编码为`Transfer-Encoding: chunked`时乱码问题

当传输编码为Transfer-Encoding: chunked时，requests返回的text无法解析，此时修改requests的header，把accept-encoding修改成空即可，例如：

accept-encoding：''

附：推荐html数据解析库parsel，基于lxml和cssselect，同时支持xpath和css方法。

版权声明：本文为「txfly」的原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接及本声明。
原文链接：https://www.jianshu.com/p/eacf77df3c3b

上一篇下一篇

猜你喜欢

热点阅读