我爱编程

科学计算基础库pandas

2018-05-05  本文已影响0人  训儿哥

pandas提供了类似关系型数据库的二维表容器,并基于容器上提供了很多高效的函数。通用导入写法为:import pandas as pd
官网10分钟上手教程介绍得很好,基本上重要的内容都有介绍,并且对每个主题都提供进一步深入的文档链接,可以将该网页作为学习pandas的主目录。pandas主要提供了一个二维表的数据结构DataFrame,该表的每一列是一个Series对象。

DataFrame对象

构造入口:
df = pd.DataFrame( 二维数组 ) #通常传入的是numpy二维数据
df = pd.read_csv('file.csv', [index_col='A'])    #读取csv文件
df =pd.to_csv('filename.csv',index=[True|False])    #存储到csv文件
查看数据
df.head( )
df.tail( )
df.describe( )
df.values  #numpy格式的数据,不包括index。常用于转换到numpy
选择数据
  1. 直接方式
    特定列:df['sun']df.sun效果相同
    特定行:df[0:10]
  2. 函数方式(推荐方法)
    通过标签选择 df.loc[行index,列名]
    通过位置选择 df.iloc[行下标,列下标]
处理缺失数据 NaN

提供了两种处理缺失值的方式
删除NaN所在行
df.dropna(how='any')
用某个值去替换
df.fillna(value=0)

Series对象

DataFrame的每一列是一个Series。
Series对象的函数较少直接使用,因为调 df.func() 时已经间接用到了。

上一篇 下一篇

猜你喜欢

热点阅读