Python学习资料整理

基于Python的模拟登陆获取脉脉好友信息

2019-03-28  本文已影响61人  9ba4bd5525b9

简介:

这是一个基于python3而写的爬虫,爬取的网站的脉脉网(https://maimai.cn/),在搜索框中搜索“CHO”,并切换到“人脉”选项卡,点击姓名,进入详情页,爬取其详细信息

获取的具体信息有:

基本信息、工作经历、教育经历、职业标签及其认可数、点评信息

几度关系:一度、二度、三度等

写给用户的

注意:如果你只是想使用这个项目,那么你可以看这里

如何使用:

使用之前,你要已经保证安装好相关的库和软件:

re

requests

selenium

logging

pymysql

chrome

mysql

使用:

从github上复制代码

填写自己的脉脉手机号和密码(你可以在login.py文件中找到他)

建表(详细建表见下)

运行程序login.py

详细建表

需要5张表,下面附上代码:

表1:basic_info(脉脉好友基本信息)

表2:education_exp(脉脉好友教育经历)

表3:review_info(脉脉好友点评信息)

表4:tag_info(脉脉好友点评信息)

表5:work_exp(脉脉好友工作经历)

模拟登陆

这是使用selenium驱动浏览器登录脉脉,然后获取cookie这样来就省去了自己去拼接cookie的麻烦,获取到cookie之后,在利用cookie来进行requests请求数据,这里不再使用selenium是因为selenium太慢,而且比较容易出错

看一下代码,思路是:

设置selenium参数

使用selenium打开到登录网址

输入手机号和密码,进行登录

获取cookies,并存到json文件中

这样就获取cookies成功了,之后将cookies添加到requests请求中,进行数据获取

上一篇下一篇

猜你喜欢

热点阅读