Python爬虫-扒一扒百度贴吧里的email并保存到MySQL
昨晚闲得蛋疼,看了看MySQL的文档,人生第一次用mysql,看了一会儿发现,我操,这么简单,然后就瞎瘠薄搞了搞,今天下午就想写点东西,打开了铁把就想到之前看别人视频写的爬贴吧email,个人觉得写的不好,自己正好没事干,就顺手写了个爬虫,顺带保存到MySQL,开搞把。
国际惯例,先上图 (:

还是看看数据把...输入命令

结果:

一共761条,看起来还不错,当然还是有些不正确的邮箱,代码在这github.com/ZCKun/CCCoding
或者直接wget https://raw.githubusercontent.com/ZCKun/CCCoding/master/tieba_email.py下载到本地
说一下要用到的模块
requests
re
pymysql
可能有些刚入这行伙计没接触过MySQL,我就在这简单的说下如何安装和配置,我只有一台装了debian的机器,linux下操作都一样,mac应该也查不了多少,win的话可以百度
首先安装MySQL到你的机器上
这是官网: www.mysql.com/
下载地址: www.mysql.com/downloads/
社区版本下载地址: dev.mysql.com/downloads/mysql/
考虑到有些人像我当年一样没电脑只有一部android手机也写了几个月的代码的情况下,在这里我也说下如何用手机安装MySQL(mariadb),请确认你的手机是android并且版本在5.x以上最好6.x
首先在你手机安装一个软件-termux,你可以百度或者去google play下载
安装好了打开后看到熟悉的终端,输入 apt update && apt upgrade
然后开始安装mariadb(mysql的那啥。。。) apt-get install mariadb
安装好了之后 输入 mysqld 开启服务
然后另开一个窗口输入 mysql 出错。。内心懵逼啊, 我这特么不是装好了么
别慌,termux上安装mariadb时不会要你设置密码,但是我们有办法
输入 mysqladmin -u root password “你的密码” 这样就设置了你的root用户的密码了
然后输入 mysql -u root -p 回车,要求输入密码,填写你刚刚设置的密码就ok了
然后开始配置用户的host,以便于你在电脑/手机上可以方便的用python连接,我这里用电脑示范,确保你手机后台在运行服务,在你的计算机上登录你手机上的mariadb时可以用 mysql -h host -P port -u user -p 这里的host是指你手机的ip(局域网的),port端口mysql/mariadb默认是3306,user就是登录的用户
在你登录成功后,出现如下界面:

手机上:

之后输入的命令啥的都一样,我就不再一一截图了。。。
输入 SHOW DATABASES; 或者 show databases; 查看有哪些数据库

可能和我的不一样,很正常,你只要确认有mysql这个数据库就可以了
接着输入 USE mysql 或 use mysql 相当于进入该数据库

看到和我的提示差不多一样就没毛病
你可以用 SHOW TABLES; 查看有哪些数据表,但是我这里就不瞎弄了
在这里我们新建一个用户,并让其他机器可以连接到来方便我们开发
输入 INSERT INTO user (Host, User, Password) VALUES ("%", "用户名", "密码");
解释一下“%”这玩意儿,如果你想让别处的机器也可以连接当前数据库的话,就这样写,“%”是MySQL里的通配符
如过用上面的命令出错了,那么你还是。。。。。。。别慌,我有办法
输入 CREATE USER "用户名"@"%" IDENTIFIED BY "密码";
但是这还不够,接着先为刚刚创建的用户新建一个数据库,比如叫:testDB
输入 CREATE DATABASE testDB;
然后给它这个数据库的所有权限,接着输入
GRANT ALL PRIVILEGES ON testDB.* TO "刚刚创建的用户名"@"%" IDENTIFIED BY "密码";
创建完了,然后检查一下是否成功,输入
SELECT Host, User, Password, Select_priv, Insert_priv, Update_priv, Create_priv FROM user WHERE User = "你刚刚创建的用户名";

出现如上图显示有东西就是创建成功,password是经过加密的,还有一点忘说了,这操作只能在root用户下才可以
linux的直接 sudo apt-get install mysql-server 就搞定了,当然不闲麻烦的去官网下载
在安装期间会要求你设置root密码,这是mysql的root用户密码,最好别忘记
在Windows上,安装时请选择UTF-8编码,以便正确地处理中文。
在Mac或Linux上,需要编辑MySQL的配置文件,把数据库默认的编码全部改为UTF-8。MySQL的配置文件默认存放在/etc/my.cnf或者/etc/mysql/my.cnf:
[client]
default-character-set = utf8
[mysqld]
default-storage-engine = INNODB
character-set-server = utf8
collation-server = utf8_general_ci
然后一切妥了,测试是否安装成功,终端下输入 mysql -u root -p 然后会车输入你的root密码,出现这样的界面就是ok了

对了,忘了创建数据表了,,,
输入 CREATE TABLE email (email VARCHAR(30));
这里第一个email是数据表的名称,第二个email是列的名称,30的意思就是限制大小30字符以内,不一定要用VARCHAR,你也可以用CHAR、DATA来表示,主要看你要存啥东西
终于开始讲爬虫了,我日,码了一个多小时的字。。。
本次的目标网址http://tieba.baidu.com/p/5178628955?pid=108443531615&cid=0#108443531615,我们得到他"?"前面的那串数字就可以了

一共13页,思路来了
1、获取爬取的帖子的页数,然后生成链接列表
2、迭代链接列表请求,之后解析
3、连接mysql数据库,然后存储
代码我就不写了,直接贴图上来


详细代码可以在这里看到github.com/ZCKun/CCCoding
文章质量可能很烂,不过还是比较详细( 个人感觉 (: )