R爬虫必备基础—Chrome开发者工具(F12)

2020-07-28  本文已影响0人  Clariom

上一期介绍了SelectorGadget的使用,当时提及需要搭配浏览器开发者工具使用。今天呢,就来介绍浏览器开发者工具,这里以Chrome浏览器为例。Chrome开发者工具中,主要功能页面是:元素(ELements)、控制台(Console)、源代码(Sources)和网络(Network)。在爬虫实践中,**ELements **和 Network面板比较常用。

1、元素(Elements)

查看元素代码:点击箭头进入选择元素模式,然后从页面中选择需要查看的元素,然后可以在开发者工具元素(Elements)一栏中定位到该元素源代码的具体位置 ,如下图,左侧即为网页源码。

image

右上部:

  1. Style css的预处理器,可见既可得。直接更改css样式在界面中可以直观的看到效果。点击具体位置之后,跳转到Sources位置,这个不影响源文件。如演示的样子,可以在Sources查看更改的历史。
  2. Computed 选中的元素盒子模型样式属性的具体计算值
  3. Event Listeners 元素绑定的事件
    4.** Properties **元素具有的属性与方法,比直接查api会更方便。

右下部:

当鼠标移到右下部界面上的时候,元素边框会有各种颜色,代表的其实是分别是盒子模型中的内容(content)、填充/内边距(padding)、边框(border)、边界/外边距(margin)。这是css中非常重要的思维模型。

2、控制台(Console)

控制台的作用:查看JS对象的及其属性;执行JS语句;查看控制台日志:当网页的JS代码中使用了console.log()函数时,该函数输出的日志信息会在控制台中显示。日志信息一般在开发调试时启用,而当正式上线后,一般会将该函数去掉。

3、源代码(Sources)

主要功能介绍如下:

image

4、网络(Network)

Netwok面板总览

Network面板功能介绍(如下图):1. Controls控制Network的外观和功能; 2. Filters控制Requests Table具体显示哪些内容; 3. Overview 显示获取到资源的时间轴信息; 4. Requests Table 按资源获取的前后顺序显示所有获取到的资源信息,点击资源名就可以查看该资源的详细信息。

image

其中,各个功能区域中常见的功能键说明如下,请求URL可进行筛选和分类,选择不同分类,查看请求URL,方便查找。也可以直接Filter搜索查询相关URL,可以输入关键字或者正则表达式进行查询。

image
请求资源面板

如下图,Requests Table 按资源获取的前后顺序显示所有获取到的资源信息,包括请求了哪些地址、每个URL的网络相关请求信息:URL,响应状态码,响应数据类型,响应数据大小,响应时间等。

image
某一具体资源

如下图,查看具体某一资源的详情,点击某个资源的Name可查看该资源的详细信息,根据选择的资源类型显示的信息也不太一样。

image

重点:请求文件具体说明, 一共分为四个模块( 爬虫发送请求参数):

①Headers:查看资源HTTP头信息,列出资源的请求URLHTTP方法(GET/POST...)、HTTP状态码请求头响应头以及它们各自的值、请求参数等等。

image

②Preview:查看资源预览信息,可根据选择的资源类型(JSON、图片、文本、JS、CSS)显示相应的预览信息。

image

Response:查看资源HTTP的Response信息, 可根据选择的资源类型(JSON、图片、文本、JS、CSS)显示相应资源的Response相应内容。

image

④Cookies:查看资源Cookies信息,如果选择的资源在Request和Response过程中存在Cookies信息,则Cookies标签会自动显示出来,可查看所有的Cookies信息。

image

⑤Timing:分析资源在请求的生命周期内各部分时间花费信息,可显示资源在整个请求生命周期过程中各部分时间花费信息,可能会涉及到如下过程的时间花费情况:

image

更多内容可关注公共号“YJY技能修炼”~~~

往期回顾
R爬虫在工作中的一点妙用
R爬虫必备基础——HTML和CSS初识
R爬虫必备基础——静态网页+动态网页
R爬虫必备——rvest包的使用
R爬虫必备基础——CSS+SelectorGadget

上一篇 下一篇

猜你喜欢

热点阅读