[小技巧]Chrome中拷贝XPath的方法

2017-01-31 本文已影响1331人向右奔跑

在用Scrapy爬取数据时需要用XPath确定路径，对于网页结构不熟悉的童鞋，需要认真找标签之间的嵌套关系，来确定所要提取内容的路径。一个简单的方法是，可以直接用Chrome的检查来Copy这个XPath的路径。

在文章中提到的小技巧，就是使用Chrome“检查”-- 找到要抓取的内容，右键 “Copy” -- “Copy XPath”

但是Copy出来的路径，是不能直接使用的，它默认是从最近的一个带id的标签开始。如果没有它会从 html标签开始计算路径。

以“小猪短租” 的房租信息为例：

http://sh.xiaozhu.com/search-duanzufang-p1-0/

copy 房租价格的XPath路径是：

//*[@id="page_list"]/ul/li[1]/div[2]/span[1]/i

显然循环点选取在li (每个租房信息都包含在一个 li 中) 。在循环中路径就应该写：

info.xpath('div[2]/span[1]/i/text()')

我录了一段屏，看一下：