python学习Django

Python学习八十天:scrapy框架介绍

2019-05-08  本文已影响6人  暖A暖

Scrapy是Python开发的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化数据的应用程序框架。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试;
Scrapy吸引人的地方在于它是一个框架,任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类,如BaseSpider、sitemap爬虫等;

1.Scrapy五大基本构成

2.使用scrapy框架爬取网页数据

from scrapy.cmdline import execute
execute(["scrapy", "crawl", "csdn",])

3.Xpath选择器的介绍

表达式书写方式 表达式意义
* 选择HTML页面中任意的节点
/ 从根节点选取
// 从匹配选择的当前节点选择文档中的节点,而不考虑它们的位置
. 选取当前节点
.. 选取当前节点的父节点
/bookstore/book[1] 选取属于 bookstore 子元素的第一个 book 元素
/bookstore/book[last()] 选取属于 bookstore 子元素的最后一个 book 元素
/bookstore/book[last()-1] 选取属于 bookstore 子元素的倒数第二个 book 元素
//title[@lang] 选取所有拥有名为 lang 的属性的 title 元素
//title[@lang='eng'] 选取所有 title 元素,且这些元素拥有值为 eng 的 lang 属性
/bookstore/book[price>35.00] 选取 bookstore 元素的所有 book 元素,且其中的 price 元素的值须大于 35.00
/bookstore/book[price>35.00]/title 选取 bookstore 元素中的 book 元素的所有 title 元素,且其中的 price 元素的值须大于 35.00
//* 选取文档中的所有元素
//title[@*] 选取所有带有属性的 title 元素
//book/title , //book/price 选取 book 元素的所有 title 和 price 元素
//title , //price 选取文档中的所有 title 和 price 元素
child::book 选取所有属于当前节点的子元素的 book 节点
child::text() 选取当前节点的所有文本子节点
/bookstore/book/title 选取所有 title 节点
/bookstore/book/price/text() 选取 price 节点中的所有文本
//* 任意元素

使用XPath

我们来通过XPath选择器爬取网站中我们想要爬取的信息,如下图我们来爬去今日推荐中的标题


import scrapy
class CsdnSpider(scrapy.Spider):
    name = 'csdn'
    allowed_domains = ['www.csdn.net']
    start_urls = ['http://www.csdn.net/']

    def parse(self, response):
       # 选择所有class="company_name"的h3元素下的a元素的文本 
       result = response.xpath('//h3[@class="company_name"]/a/text()').extract()
       # 将得到的文本列表循环 
       for i in result:
           print(i)

我们来看一下输出打印,看看是不是我们想要的结果


参考:https://www.9xkd.com/user/plan-view.html?id=2020510935

上一篇 下一篇

猜你喜欢

热点阅读