python爬虫编写笔记

2019-04-17  本文已影响0人  Eren_Jaeger

res = requests.get()

re模块的三个函数

re.findall()匹配特点:

re模块修饰符

非贪婪匹配

res.content.decode('utf-8)

res.text

<p>(.*?)</p>

res.status_code

\d

\D

\d+

\D+

如何制造大量的有规律的url

如何同时处理多个列表

re.sub 与replace

lxml库

lxml库用法

如果数据类型为列表结果,如何从列表结构里面获取字符串类型数据

直接利用xpath定位到是什么?

如何将xpath定位到的element获取文字信息

在使用xpath定位+/text()后,得到的数据是什么类型?

如何使用xpath定位循环点?

学会变量赋值表达式

写入内容到csv表格

在写入中文到csv时乱码,怎样解决?

写入内容到excel表格

json数据格式特点

json数据解析

如何保存图片信息

如何插入数据到mongodb

如何把mongodb表中的数据导出成csv格式

mongodb可视化管理工具

多进程处理

何为异步处理

lxml代码

html代码

异步加载ajax的表现

处理异步加载的动态网站

表单交互与模拟登陆

如何获取post表单的关键字段

当response返回json数据时如何使用?

如何使用selenium配合写爬虫?

上一篇下一篇

猜你喜欢

热点阅读