(三)爬虫-入门

2018-12-26  本文已影响0人  迢迢0515

心理学专业的人学习爬虫有很多困难,但是还是一点点艰难地学习,记录下自己的学习成果。

学习爬虫的目的:

(1)    获得相应的资料,可以方便爬取文章、书籍、图片、量表,由于研究的原因经常去一些论坛,也可以批量获取论坛的文字、图片、视频信息。

(2)    熟悉python的语法。

(3)    熟悉后端的一些结构。

相关工具以及版本:

(1) python 3.6.3 Anaconda

(2)    requests库。发送http请求

(3)    BeautifulSoup 4.4。解析代码,能够得到一个BeautifulSoup 的对象,并能按照标准的缩进格式的结构输出。

(4)    操作系统:macOS 10.14

例子:爬取https://ibaotu.com/ui/15-91803-0-0-0-1.html的ui设计图片。

截图 结果

注:

1.    类似该例子的方法适合爬取html的内容,并且是在网页上直接呈现的内容。

2.    不能获取还没有下拉加载的内容。

3. Requests的get请求使用了headers参数,这个是用来模拟浏览器的。Chrome浏览器,按F12,刷新,network-request hearders-user agent。

上一篇 下一篇

猜你喜欢

热点阅读