我爱编程

allitbooks网站爬取

2018-06-20  本文已影响50人  沉思故事

目标:获取allitbooks网站的书籍信息,特别是书名和下载直链,存到cassandra或者scylla中

github主页:https://github.com/baiwfg2/scrapy-examples/tree/master/allitbooks

get到所有大主题

response.css('div ul#menu-categories li a::text').extract()

1.png

get所有的大主题url

response.css('div ul#menu-categories li a::attr(href)').extract()

1.5.png

get database页面下的总页数:

response.css('div.pagination a::text').extract()[-1]

2.png

get database/page/3下的所有book link,

response.css('h2.entry-title a::attr(href)').extract()

3.png

get one book的作者,可能有多个

response.css('div.book-detail dl').xpath('.//dt[text()="Author:"]/following-sibling::dd')[0].css('a::text').extract()

4.png

效果图:

5.png

遗憾的是,只爬取到143条数据。日后在诊断原因……

搜索的主键name太长,需要模糊查找!!


clipboard.png
上一篇 下一篇

猜你喜欢

热点阅读