Python工作笔记

lxml和requests问题记录

2019-01-16  本文已影响0人  txfly

lxml里面xpath获取结果不完整解决办法

去掉html里面内容为\x00的部分

r = requests.get(url)
body = r.text.strip().replace('\x00', '').encode('utf8') or b'<html/>'
root = etree.fromstring(body, parser=etree.HTMLParser(recover=True, encoding='utf8'))
root.xpath(...)

request传输编码为Transfer-Encoding: chunked时乱码问题

当传输编码为Transfer-Encoding: chunked时,requests返回的text无法解析,此时修改requests的header,把accept-encoding修改成空即可,例如:

accept-encoding:''

附:推荐html数据解析库parsel,基于lxml和cssselect,同时支持xpath和css方法。

版权声明:本文为「txfly」的原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接及本声明。
原文链接:https://www.jianshu.com/p/eacf77df3c3b

上一篇下一篇

猜你喜欢

热点阅读