python数据收集工具

2020-06-02  本文已影响0人  WickJohn

一、正则表达式(略)
二、Xpath表达式基础
除了正则表达式之外,还有一些非常好用的信息筛选工具,比如XPath表达式、beautifulSoup等等,当然,我们不可能也不需要都进行掌握,在此,我们讲解一下XPath表达式
/逐层提取
text() 提取标签下面的文本
//标签名** 提取所有名为**的标签
//标签名 [@属性=‘属性值’] 提取属性为XX的标签
@属性名 代表取某个属性值

例如:

<html>
<head>
<title>
主页
</title>
</head>
<body>
<p>abc</p>
<p>bbbvb</p>
<a href="//qd.alibaba.com/go/v/pcdetail" target="_top">安全推荐</a>
<a href="//qd.alibaba.com/go/v/pcdetail">target="_top">安全推荐</a>
<div class="J_AsyncDC" data-type="dr">
          <div id="official-remind">明月几时有
</div>
</div>
</body>

分析以下XPath表达式提取的内容:
/html/head/title/text()
答案:主页
//p/text()
答案:abc
bbbvb
//a
答案:href="//qd.alibaba.com/go/v/pcdetail" target="_top">安全推荐
href="//qd.alibaba.com/go/v/pcdetail">target="_top">安全推荐
//div[@id='official-remind']/text()
答案:明月几时有
//a/@href
答案://qd.alibaba.com/go/v/pcdetail
//qd.alibaba.com/go/v/pcdetail

实例:
提取标题:/html/head/title/text()
提取所有的div标签://div
提取div中<div class="tools">标签的内容://div[@class='tools']/text()

上一篇下一篇

猜你喜欢

热点阅读