allitbooks网站爬取

2018-06-20 本文已影响50人沉思故事

目标：获取allitbooks网站的书籍信息，特别是书名和下载直链，存到cassandra或者scylla中

github主页：https://github.com/baiwfg2/scrapy-examples/tree/master/allitbooks

response.css('div ul#menu-categories li a::text').extract()

1.png

response.css('div ul#menu-categories li a::attr(href)').extract()

1.5.png

response.css('div.pagination a::text').extract()[-1]

2.png

response.css('h2.entry-title a::attr(href)').extract()

3.png

response.css('div.book-detail dl').xpath('.//dt[text()="Author:"]/following-sibling::dd')[0].css('a::text').extract()

4.png

5.png

遗憾的是，只爬取到143条数据。日后在诊断原因……

搜索的主键name太长，需要模糊查找！！

clipboard.png