零基础学python(1)——爬取房天下网站信息

2017-02-12  本文已影响0人  李毓锟

一、认识网页

       网页分为三个部分:HTML(结构)、CSS(样式)、JavaScript(功能)。

二、爬取网站信息入门

1、Soup = BeautifulSoup (html, 'lxml'),使用beautifulsoup来解析网页。

2、使用copy CSS selector来复制网页元素的位置。

三、爬取房天下网站信息 

1、导入requests和beautifulsoup

2、定义函数spider_ftx,把所需要爬取的信息都定义出来

3、调用函数spider_ftx

4、翻页爬取二手房信息

     由于每页最多只能显示40条信息,观察每一页网址的变化规律,写一个循环调用的语句,把全部100页的信息全都爬取下来。

四、小结:

     目前只能爬取到网站的100页信息,网站为了反爬,设置了可浏览的页面量100。要想爬取网站的所有信息,可以通过分类去获取,但是如何用python实现呢,请看下集。

上一篇下一篇

猜你喜欢

热点阅读