零基础学python（1）——爬取房天下网站信息

2017-02-12 本文已影响0人李毓锟

一、认识网页

网页分为三个部分：HTML(结构）、CSS（样式）、JavaScript（功能）。

二、爬取网站信息入门

1、Soup = BeautifulSoup (html, 'lxml')，使用beautifulsoup来解析网页。

2、使用copy CSS selector来复制网页元素的位置。

三、爬取房天下网站信息

1、导入requests和beautifulsoup

2、定义函数spider_ftx，把所需要爬取的信息都定义出来

3、调用函数spider_ftx

4、翻页爬取二手房信息

由于每页最多只能显示40条信息，观察每一页网址的变化规律，写一个循环调用的语句，把全部100页的信息全都爬取下来。

四、小结:

目前只能爬取到网站的100页信息，网站为了反爬，设置了可浏览的页面量100。要想爬取网站的所有信息，可以通过分类去获取，但是如何用python实现呢，请看下集。