pandas

2018-12-11  本文已影响0人  岑洋

自学整理记录,大神见笑

为什么要学习pandas

import pandas as pd

pandas的常用数据类型

Series

t = pd.Series(np.arange(5),index=list("abcde"))

temp_dict = {"name":"xiaohong","age":1,"tel":"119"}
pd.Series(temp_dict,index=list("name"))

list = {"name": "xiaohong", "age": 1, "tel": "119"}
t = pd.Series(list)
t["age"]
t[1]
t[:2]
t[[1,2]]

t.index

t.values

pd.read_csv # 读取csv文件
pd.read_clipboard # 读取剪切板文件
pd.read_excel # 读取excel文件
pd.read_json # 读取json文件
pd.read_html # 读取html文件
pd.read_pickle #
pd.read_sql #
pd.read_sql_query #
pd.read_sql_table #
pd.read_sql(sql_sentence,connection) # 读取mysql,传入sql语句,连接即可;
# 读取mongodb,获取到第一条数据
client = MongoClient()
collection = client["MyMongo"]["test1"]
data = list(collection.find())
t1 = pd.Series(data[0])

DataFrame

pd.DataFrame(np.arange(12).reshape(3,4),index=list("abc"),columns=list("wxyz"))

temp_dict = [{"name":"xiaohong","age":1,"tel":"119"},{"name":"xiaoxiao","tel":"110"}]
pd.DataFrame(temp_dict)

DataFrame方法

df.shape

df.dtypes

df.ndim

df.index

df.columns

df.values

df.head()

df.tail()

df.info()

df.describe()

df.sort_values(by="Count",ascending=False)

t = pd.DataFrame(np.arange(12).reshape(3, 4),index=list("abc"),columns=("WXYZ"))
df.loc["a":"c","W"]
df.iloc[[0,2],[2,1]]

t = pd.DataFrame(np.arange(12).reshape(3, 4),index=list("abc"),columns=("WXYZ"))
df.loc["a":"c","W"] = 1
df.iloc[[0,2],[2,1]] = np.nan

df[(df["Row"].str.len() > 4) & (df["Count"] > 700)]

1543483013(1).jpg
方法 说明
cat 元素级字符串连接操作,sep参数指定连接的字符串
contains 返回表示各字符串是否含有指定的布尔型数组

DataFrame缺失数据的处理

pd.isnull(df)

pd.notnull(df)

t.dropna(axis=0,how="any",inplace=True)

t.fillna(t.mean())
t["age"].fillna(t["age"].mean())

数据合并

df1.join(df2)

join.png

df1.merge(df2)

merge.png

数组分组

image.png
上一篇下一篇

猜你喜欢

热点阅读