蜻蜓点水XPath
2018-06-23 本文已影响1人
平头说人生
Scrapy推荐XPath解析数据,我们就把XPath干熟了,你会发现,真是好,越干越爽!
最简单的几个:
1 //双斜杠代表选择所有的,如//td:选择所有<td>元素
//div[@class="mine"]选择所有具有class="mine"属性的div元素。注意:过滤元素填写在中括号里面,过滤元素前面有@符号,@符号后面紧跟着过滤元素,接着是=号,然后将过滤的值用双引号包起来,包好了,别流出来!
2 /html/head/title/text()提取title元素的文本,
从这里可以看出提取文本要调用text()函数,很容易理解,还带括号,非常好,括号用来区分到这里调用的是函数还是元素。
比较友好的是scrapy提供了一个Scrapy shell工具进行练习,如下:
在终端下打如下命令:
scrapy shell "Www.meitu.com.en“
这样就会获取到此网站的Html源码,然后在终端下使用Response.xpath('xxx')各种命令骚起来