Pandas

运用Pandas(Python3以上)连接MySQL进行读写,查

2020-07-14  本文已影响0人  Mingjie_MEL

Pandas是Python处理数据分析包。当需要处理大量数据时能比EXCEL提供更强大的运行效率。可以与读入,写出如:CSV,CST,Excel,MySQL等数据存储方式。

任务:

本次将要介绍的是如何利用Pandas以及一些辅助包来:

1. 将Python中的DataFrame数据写入MySQL

2. 将MySQL中的数据导入Pyhon,并且利用MySQL语句进行操作

准备:

利用到的模拟数据来自Stackoverflow 中的Stack Overflow Annual Developer Survey 2020 (CSV File)(https://insights.stackoverflow.com/survey)关于程序员的调查数据

在操作之前确保已经安装相应的库:Pandas,SQLAlchemy,pymysql

用到的工具:Anaconda,JupyterNotebook(IDLE 或 Pycharm也可,但Jupyter的数据界面比较清晰),MySQL Workbench(8.0版本)。

方法如下(假设已经安装Anaconda):搜索Anaconda Prompt

pip install PyMySQL

pip install Pandas

pip install SQLAlchemy

安装package 举例

操作阶段

1. 导入数据到Jupyter

将下载的CSV导入Jupyter,操作如下

导入数据

2. 提前设置好Mysql

在Mysql中建立新的数据库(Schema)命名为sample_db

设置实验数据库

3. 创立连接

首先import sqlalchemy 和 pymysql库

create_engine 为一个方法(method),执行建立连接的操作

engine变量储存所创立的连接,以便重复利用

df.to_sql() 为写入sql的一个方法(method),其中arg1 为数据库中数据表的名称(此时新建的),engine 代表前期利用create_engine创建的连接。if_exists 检查是否之前已经存在此数据表,‘append’代表如果存在附加,‘replace’代表如果存在,覆盖原来数据。

操作完毕,登录数据库,此时在数据库(sample_db)中将能看到新创建的数据表(sample_table)

创立连接

4. 读取数据库中的数据

还是利用第三步创立的连接engine,在Jupyter中接着输入

sql_df_test = pd.read_sql('sample_table',engine,index_col = 'Respondent')

将sample_table 中的数据导入并且赋值给sql_df_test

5. 利用Python操作查询导入想要的数据

如果不想全部导入数据库中的数据,可以设置查询条件,只导入需要的数据。此时用到的语句为

pd.read_sql_query (query 代表查询),arg1 为查询的条件(SQL语法),代表从sample_table中以age>30 为条件,* 代表查询所有的数据。

验证sql_df_test['Age'].min() 为31

从数据库中查询导入需要的数据

6. Pandas语句查询与Mysql语句查询对比

假设想查询模拟数据中,参与调查的中国程序员的平均年龄。

利用pandas语句

Pandas查询

利用mysql语句(生成DataFrame格式,方便在Pandas中做进一步操作)

生成DataFrame格式

利用mysql语句(简单的结果输出)

简单结果输出
上一篇下一篇

猜你喜欢

热点阅读