用python写爬虫-1.爬虫步骤

2018-03-31  本文已影响0人  ddm2014

写爬虫有几步?

1.找到想要爬取的数据地址。

我用chrome浏览器,F12。

一般在doc或者xhr下,doc是网址上就有的内容,xhr是js异步的数据。

再看看Headers,Request URL,这就是请求地址。

下面有网页的方法,一般为get或者post

用response看看想爬的数据在不在,这是最关键的一步,找到想要的数据在哪里。

2. 用requests获取网页,

3. beautifulSoup,pyquery等库解析网页,将想要的数据抽取出来。

4.将抽取出来的数据保存。存入excel,数据库,以便后续使用。

下一次requests库

上一篇下一篇

猜你喜欢

热点阅读