Python DataFrame 导入至 Microsoft S

2019-08-09  本文已影响0人  YUENFUNGDATA

本文将介绍如何把DataFrame中的数据写入到Microsoft SQL Sever数据库。

而 Pandas 中的 DataFrame.to_sql 方法是实现此功能的关键:

函数及其参数如下:
DataFrame.to_sql(name, con, schema=None, if_exists='fail', index=True, index_label=None, chunksize=None, dtype=None, method=None)

函数及其参数解析如下:


以上 to_sql 函数及其参数解析完毕。

接下来将进行项目实战:

1、导入pandas库,并导入sqlalchemy模块中的create_engine,需要利用它来进行连接数据库

import pandas as pd
from sqlalchemy import create_engine

2、连接数据库

conn = create_engine('mssql+pymssql://sa:123456@192.168.0.57/advertising')

解析如下:
create_engine("数据库类型+数据库驱动://数据库用户名:数据库密码@IP地址:端口/数据库")

3、在SQL Sever数据库中建表

首先要在SQL Sever数据库中新建表、设计表的结构和类型,这一步的主要目的是为存储接下来DataFrame中的数据作准备。

在SQL Server的advertising数据库中新建名为 sales_data 的表,详细创建代码如下:

CREATE TABLE sales
(
    ASIN VARCHAR(255),
    Keywords VARCHAR(255),
    tf-idf FLOAT(8)
);

至此,数据库中已新建完成sales表:列名分别为ASIN、Keywords、tf-idf,数据类型分别为VARCHAR VARCHAR FLOAT。

4、设置dataframe与数据库列名和数据类型对应

第三步已经设置好了数据库的表结构类型,现在则要设置对应的dataframe中所期望储存数据的表的结构类型。

dtypedict = 
      {
      'ASIN': NVARCHAR(length=255),
      'Keywords': NVARCHAR(length=255),
      'tf-idf': Float()
      }

参数解析:
dtypedictto_sql函数中的一个参数,设置的目的在于:DataFrame数据框的列名需要和数据表的列名对应,这样才能够匹配传入数据库。

若不设置此项,可能会导致Dataframe的数据类型传导进去后,数据库中的数据类型被迫发生了自动改变,造成两者的数据类型不一致。举个例子:DataFrame中 tf-idf列的数据类型为int,而数据库的sales表设计的数据类型却为float,将DataFrame的数据导入数据库表中,发现该列的数据类型变成了float,而不是原来的int,进而导致错误的出现。

5、运用 to_sql 函数将Dataframe中的数据导入Microsoft SQL Sever

DataFrame的数据保存在 df 中。

df.to_sql(name='sales', con=conn, if_exists='replace', index=False, dtype=dtypedict)

参数解析:
name 是要存储数据的表,这里填 sales;
con 是前面第二步连接数据库的步骤;
if_exists 可参考本文开头的函数解析,有三个参数可选;
index 参数False表示不出现索引,True则为出现索引;
dtype 第四步的设置所期望储存数据的表的结构类型。

6、关闭数据库链接

conn.dispose()

运行结果:

在SQL Sever advertising数据库中查看sales表,DataFrame中的数据已成功导入sales表。

最后完整代码如下:

import pandas as pd
from sqlalchemy import create_engine
conn = create_engine('mssql+pymssql://sa:123456@192.168.0.57/advertising')
dtypedict = 
{
      'ASIN': NVARCHAR(length=255),
      'Keywords': NVARCHAR(length=255),
      'tf-idf': Float()
}
df.to_sql(name='sales', con=conn, if_exists='replace', index=False, dtype=dtypedict)
conn.dispose()
上一篇下一篇

猜你喜欢

热点阅读