Python爬虫笔记

python爬虫day-4(爬虫的基本原理)

2019-04-09  本文已影响0人  南音木

个人学习笔记,方便自己查阅,仅供参考,欢迎交流

爬虫的基本原理

A.爬虫概述

爬虫就是获取网页并提取和保存信息的自动程序

1.获取网页

2.提取信息

3.提取信息

4.自动化程序

B.爬取内容
C.JavaScript 渲染页面

我们在用 urllib或requests抓取网页时,得到的源代码实际和浏览器中看到的不一样。这是个非常常见的问题。现在网页越来越多地采用 Ajax,前端模块化工具来构建,整个网页能都是由 JavaScript 渲染出来的,也就是说原始的HTML代码就是一个空壳。对于这样的情况,可以分析其后台 Ajax 接口,也可使用 Selenium、Splash 这样的库来实现模拟JavaScript 渲染。

上一篇下一篇

猜你喜欢

热点阅读