高效Python之Pandas

2019-11-20  本文已影响0人  bclz

api参考:https://pandas.pydata.org/pandas-docs/version/0.25/reference/index.html

Pandas是python在统计中应用非常广的第三方库,也提供了很多简单易用的API,其主要有两大数据结构: \color{red}{Series}\color{red}{DataFrame}

1. Series和DataFrame

#第一个参数data,第二个参数试自定义索引,不指定为1,2...n顺序
#seriesEg=Series([1,2,1],index=['a','b','c'])
# a    1
# b    2
# c    3
# dtype: int64
seriesEg=Series([1,2,1],['a','b','c'])
print(seriesEg) 
print(seriesEg['a'])

很容易发现Series结构实际上就是一系列的k,v组成。


dataFrameEg=DataFrame({"languageScore":[60,30,65],"mathScore":[93,96,92],"englishScore":[90,77,88]},index=["张飞","关羽","黄忠"])
print(dataFrameEg)
print(dataFrameEg["languageScore"])      #输出Series结构

#     languageScore  mathScore  englishScore
# 张飞             60         93            90
# 关羽             30         96            77
# 黄忠             65         92            88

# 张飞    60
# 关羽    30
# 黄忠    65

2. 数据操作

主要涉及:

3. pandasql操作

import pandasql as psql
import pandas as pd
df1=pd.DataFrame({"name":["张三","李四","小明"],"rank":range(10,13)})
print(df1)
# locals() or globals() variable environment
psqldf=lambda sql:psql.sqldf(sql,env=globals())
print(psqldf("select * from df1 where name='张三' or name='李四'"))

print(psql.sqldf("select rank from df1 ",env=locals()))
上一篇 下一篇

猜你喜欢

热点阅读