[方法分析] 如何快速入手掌握Python爬虫

2017-05-25  本文已影响287人  Python课程作业

本文适合掌握了Python基本语法,完成了逻辑训练题的同学。

不得不说目前二期同学的学习劲头和氛围比一期的要好得。大家的提问、互动和建议也比较多。

回答一个问题。昨天发了推荐的视频,今天晚上也有一场直播课程(YiCo的),讲得比较多的工具和抓取中的调试,有同学感到内容太多,对于怎么入手写一个爬虫代码没有头绪。

其实入手写简单爬虫功能还是比较简单。分成三步:

  1. 发起请求,返回页面数据
    请求网络资源(你想抓取的URL),得到网页源代码(或者返回的json数据),这个过程可以看作就是模拟浏览器操作。
  2. 对网页进行解析,得到数据
    获取网页中的数据,有这以下几种方法:
  1. 数据处理,存入数据库
    对数据进行处理,如格式调整,进行数据库操作(或文件操作 常用csv文件格式)

针对每一步来具体讲:
1)发起网络请求的方式,urllib, urlib2, requests库,都已对网络请求高度封装了,两三行代码就可以实现。后面如果使用scrapy连这两三行代码也不用写了。

会出现的问题(或难点),对URL访问不熟悉,包括请求参数,请求头,这里就需要对URL进行抓包分析,经常使用的工具 Chrome 的“检查”工具,Fiddler等。确定分析的主要有两点:请求的URL,请求中的关键参数。

另外就是增加防Ban措施。(让爬虫伪装得像浏览器一样)

2) 对页面进行匹配或解析

3)数据处理,入库操作。
循序渐进的学习方式,第一步,先把数据打印出来,好处马上看到抓取的数据结果,有成就感,便于调度,当然最好是能debug调试。第二步,数据写入CSV文件,几千条上万条数据用Excel分析起来也很方便,这种方式一般满足日常一些数据的要求,抓取尽可能多的数据练习。第三,学习mysql, mongodb数据库操作(包括程序写入,基本 sql 语句练习)


006 - 5分钟快速学会正规表达式

007 - Python简单爬虫 - 正则表达式

010 - 使用BeautifulSoup和XPath抓取结构化数据


YiCo斗鱼直播视频录屏:链接: https://pan.baidu.com/s/1eR19GOE 密码: dt7y

上一篇下一篇

猜你喜欢

热点阅读