每天写500字程序员

再谈Scrapy抓取结构化数据

2017-01-17  本文已影响834人  向右奔跑

还是以简书首页为例(7日热门trending/weekly/,30日热门trending/monthly/ 网页结构相似、样式是一样的),抓取 文章标题、作者、阅读量、评论数、喜欢数和打赏。

1. 只提取文章标题内容

首先看一下 文章标题 部分的网页代码,对网页结构进行分析。

a 标签的内容就放着 文章标题。它是在一个class="content"的div标签下面。那么如果只想抓到文章标题进行分析的话(如分析简书首页热点文章类型),就很简单。

titles = selector.xpath('//a/text()').extract()

显然这个是抓取到所有a标签的文本内容,很明显包含了页面上所有有链接,不仅仅是我们需要的文章标题。

需要加以限定,限定的方式一是加上需要抓取标签内容的样式属性(class) 或者指定这个标签的路径(xpath进行路径的限定,它的父标签,或父父标签是什么,或在这些标签上再加属性限制)。

titles = selector.xpath('//a[@class="title"]/text()').extract()

这样就可以了。在页面上class='title'就是文章标题的样式,注意这时候提取的是一个集合,循环迭代出来就是所有的文章标题。

titles = selector.xpath('//a[@class="title"]/text()').extract()
for title in titles:
     print title

注意,这时候,我们用Chrome的“检查” -- copy -- copy xpath,复制到的 文章标题 的xpath 是 //*[@id="note-8305658"]/div/a ,很显然这是一篇文章标题的xpath,不能作为我们循环提取页面上所有文章标题 的xpath。

但是可以印证 a标签是在一个div下的,这个id 指是一个li 标签。也就是所有我们所需要的文章信息(标题,作者、阅读量等)都是在 li 标签里。

那这里要提取 文章标题 还有一种写法。

titles = selector.xpath('//div[@class="content"]/a/text()').extract()

2.提取结构化数据

结构化数据指的是一个数据块,对应数据库里的一条记录,程序中的一个对象。

根据上面的分析,要提取一篇文章所有信息(标题,作者,阅读量等),需要把循环放在 li 这里。

 infos = selector.xpath('//ul[@class="note-list"]/li')

再对infos进行循环,取出 li > div > a标签的text就是文章标题。

        infos = selector.xpath('//ul[@class="note-list"]/li')

        for info in infos:
            title = info.xpath('div/a/text()').extract()[0]
            print title

ul --> li 完整的数据块

此处要注意,在循环中使用的xpath是针对 infos 中的 info 进行一次xpath。

特别注意: infos = selector.xpath('//li[@class="have-img"]') 虽然选取的也是 li,但是这时候迭代是取不出来所有文章的,因为 have-img指的是那些有图的文章标题的列表。

把完整代码给出来。

    def parse(self, response):

        selector = Selector(response)
        infos = selector.xpath('//ul[@class="note-list"]/li')

        for info in infos:
            title = info.xpath('div/a/text()').extract()[0]
            print title

            author = info.xpath('div/div[1]/div/a/text()').extract()[0]
            print author

注意:在循环中直接使用了数组下标[0]的方式就是提取所要的一行内容。

一个小技巧,这时候最好用的是Chrome中的copy xpath, 比如作者,copy出来的是

//*[@id="note-8305658"]/div/div[1]/div/a

你应该直接在代码中直接写id后面的那个路径。

3.总结一下

抓取结构化数据的关键,首先对网页结构要熟悉了解,另外就是要选择循环点,一般是父标签到数据块所在的标签,第三就是结合使用Chrome的copy xpath很方便,可以提高效率。

上一篇下一篇

猜你喜欢

热点阅读