python爬虫学习

在Urllib中使用XPath

2017-11-05 本文已影响12人薛落花随泪绽放

在Urllib中，我们一样可以使用XPath进行信息提取，此时，需要首先安装lxml模块，然后将网页数据通过lxml下的etree转化为treedata的形式

#在Urllib模块下使用XPath表达式
import urllib.request
from lxml import etree
data=urllib.request.urlopen("http://www.baidu.com").read().decode("utf-8","ignore")
treedata=etree.HTML(data)
title=treedata.xpath("//title/text()")
if(str(type(title))=="<class 'list'>"):
    pass
else:
    title=[i for i in title]
print(title[0])

>>> len(data)
111240
>>> len(treedata)
2
>>> type(data)
<class 'str'>
>>> type(treedata)
<class 'lxml.etree._Element'>
>>> type(title)
<class 'list'>
>>> title
['百度一下，你就知道']

上一篇下一篇

猜你喜欢

热点阅读