蜻蜓点水XPath

2018-06-23  本文已影响1人  平头说人生

Scrapy推荐XPath解析数据,我们就把XPath干熟了,你会发现,真是好,越干越爽!

最简单的几个:

1     //双斜杠代表选择所有的,如//td:选择所有<td>元素

     //div[@class="mine"]选择所有具有class="mine"属性的div元素。注意:过滤元素填写在中括号里面,过滤元素前面有@符号,@符号后面紧跟着过滤元素,接着是=号,然后将过滤的值用双引号包起来,包好了,别流出来!

2 /html/head/title/text()提取title元素的文本,

从这里可以看出提取文本要调用text()函数,很容易理解,还带括号,非常好,括号用来区分到这里调用的是函数还是元素。

比较友好的是scrapy提供了一个Scrapy shell工具进行练习,如下:

在终端下打如下命令:

scrapy shell "Www.meitu.com.en“

这样就会获取到此网站的Html源码,然后在终端下使用Response.xpath('xxx')各种命令骚起来

上一篇下一篇

猜你喜欢

热点阅读