蜻蜓点水XPath

2018-06-23 本文已影响1人平头说人生

Scrapy推荐XPath解析数据，我们就把XPath干熟了，你会发现，真是好，越干越爽！

最简单的几个：

1 //双斜杠代表选择所有的，如//td:选择所有<td>元素

//div[@class="mine"]选择所有具有class="mine"属性的div元素。注意：过滤元素填写在中括号里面，过滤元素前面有@符号，@符号后面紧跟着过滤元素，接着是=号，然后将过滤的值用双引号包起来，包好了，别流出来！

2 /html/head/title/text()提取title元素的文本，

从这里可以看出提取文本要调用text()函数，很容易理解，还带括号，非常好，括号用来区分到这里调用的是函数还是元素。

比较友好的是scrapy提供了一个Scrapy shell工具进行练习，如下：

在终端下打如下命令：

scrapy shell "Www.meitu.com.en“

这样就会获取到此网站的Html源码，然后在终端下使用Response.xpath('xxx')各种命令骚起来