在Urllib中使用XPath
2017-11-05 本文已影响12人
薛落花随泪绽放
在Urllib中,我们一样可以使用XPath进行信息提取,此时,需要首先安装lxml模块,然后将网页数据通过lxml下的etree转化为treedata的形式
#在Urllib模块下使用XPath表达式
import urllib.request
from lxml import etree
data=urllib.request.urlopen("http://www.baidu.com").read().decode("utf-8","ignore")
treedata=etree.HTML(data)
title=treedata.xpath("//title/text()")
if(str(type(title))=="<class 'list'>"):
pass
else:
title=[i for i in title]
print(title[0])
>>> len(data)
111240
>>> len(treedata)
2
>>> type(data)
<class 'str'>
>>> type(treedata)
<class 'lxml.etree._Element'>
>>> type(title)
<class 'list'>
>>> title
['百度一下,你就知道']