爬虫程序员机器学习与数据挖掘

Python网络爬虫(四)- XPath

2017-08-10  本文已影响1212人  一只写程序的猿

目录:

1.XPath

XPath 即为XML路径语言(XML Path Language),它是一种用来确定XML文档中某部分位置的语言。它使用路径表达式来选取 XML 文档中的节点或节点集。节点是通过沿着路径 (path) 或者步 (steps) 来选取的。
XPath语法

2.XPath在python中的应用

3.XPath中的text()和string()区别

1.XPath中的text()和string()本质区别

2.XML例子:

<book><author>_知几</author></book>

用例 举例
text() book/author/text()
string() book/author/string()
data() book/author/data()
. book/author/.

3.特殊用例

XML例子:

<book>
    <author>python<em>django</em>爬虫</author>
    <pricing>
        <price>20</price>
        <discount>0.8</discount>
    </pricing>
</book>
let $x := book/author/text()
return $x

返回的结果是python 爬虫,其中的django不属于author直接的节点内容。

let $x := book/author/string()
return $x

返回的内容是python django 爬虫

let $x := book/pricing/string()
return $x

返回的是200.8

let $x := book/pricing/data()
return $x

这样将返回分开的20和0.8,他们的类型并不是字符串而是>xs:anyAtomicType,于是就可以使用数学函数做一定操作。

let $x := book/pricing/price/data()
let $y := book/pricing/discount/data()
return $x*$y

比如上面这个例子,就只能使用data(),不能使用text()string(),因为XPath不支持字符串做数学运算。

text()不是函数,XML结构的细微变化,可能会使得结果与预期不符,应该尽量少用,data()作为特殊用途的函数,可能会出现性能问题,如无特殊需要尽量不用,string()函数可以满足大部分的需求。

4.爬取诛仙前50章内容

主要分三个步骤:

(1)分析小说网址构成;

(2)获取网页,并分离出小说章节名和章节内容;

(3)写入txt文档。

代码操作:

# -*- coding:utf-8 -*-
import urllib,urllib2,re
from lxml import etree

#定义函数,爬取对应的数据
def getText(url,file_name):
    print('开始爬取第%s章的内容'%file_name)
    #伪装请求头
    my_headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.104 Safari/537.36',
    }
    request = urllib2.Request(url,headers=my_headers)
    content = urllib2.urlopen(request).read()
    return content

#定义函数,保存爬取到的数据
def save(content):
    xml = etree.HTML(content)
    datas = xml.xpath('/html/body/div[@id="main"]/h1 | /html/body/div[@id="main"]/p')

    data = datas[2].xpath('string(.)').encode('utf-8')
    name = datas[0].xpath('string(.)')
    print name
    print('第%s章的内容爬取完成' % file_name)
    with open('txt/%s'%name+'.txt', 'wb') as f:
        f.write(data)


#定义主程序接口
if __name__ == '__main__':
    x=41277
    while x<x+50:
        url = 'http://www.ty2016.net/net/zhuxian/'+str(x)+'.html'
        x+=1
        file_name = str(x-41278)
        try:
            content = getText(url,file_name)
            save(content)
        except Exception,a:
            print a

从本地可以看到已经爬取到相关内容
注解:Xpath的获取
获取数据的Xpath
上一篇下一篇

猜你喜欢

热点阅读