Scrapy框架抓取安居客房源信息
2016-11-08 本文已影响124人
Lazy1
1.我们抓取这个地址 http://bj.zu.anjuke.com/ditie/dt20-s435/
2.首先我们来抓取发布的房源标题,分析下结构
Paste_Image.png3.通过上面的分析我们看到我们需要房源的title在:
div>h3>a 这样的一个结构我们就可以拿到a标签了
from scrapy.spider import Spider
from scrapy.selector import Selector
from tutorial.items import AnJuKeItem
class DmozSpider(Spider):
name = "dmoz"
allowed_domains = ["dmoz.org"]
start_urls = [
"http://bj.zu.anjuke.com/ditie/dt20-s435/"
]
def parse(self, response):
sel = Selector(response)
titleList = sel.xpath('//div/h3/a')
for sel in titleList:
item = AnJuKeItem()
item['link'] = sel.xpath('@href').extract()
item['title'] = sel.xpath('text()').extract()
yield item
这样我们就拿到了页面的房屋标题,和进入详情界面的url,为我们下一步抓取电话做准备
4.增加了抓取电话和联系地址,并且保存数据到本地mysql
5.其中创建数据库字段的时候我们要 手动制定该字符的编码格式,详情见源码