1、Pandas数据观察

2020-08-17  本文已影响0人  thelong的学习日记

1、加载数据

1.1 导入相关库

import numpy as np
import pandas as pd

1.2 载入数据

使用相对路径载入文件

df = pd.read_csv('./train.csv')

使用绝对位置载入文件

df = pd.read_csv('/Users/../train.csv')

查看当前位置

print(os.getcwd())

内存不足时,需要逐块读取

chunker = pd.read_csv('train.csv',chunksize = 1000)
for data in chunker:
      ....
      ....

2、观察数据

df.info()   #查看数据的基本信息
df.head(10)  #查看前十行
df.tail(15)    #查看后15行
df.describe() #查看数据基本统计信息
df.column() #查看Dataframe数据的所有列
df['Cabin']  #查看“Cabin”这列的所有样本

3、筛选

3.1、以“Age”为筛选条件,显示年龄在10岁以下的乘客信息

df[df['Age']<10]

3.2、以“Age”为条件,将年龄在10岁以上和50岁以下的乘客信息显示出来

df[(df['Age']>10)&(df['Age']<50)]

3.3、将数据中第100行的“Pclass”和“Sex”的数据显示出来

# index需要重新设置
df.reset_index(drop = True)
df.loc[[100],['Pclass','Sex']]
3.4、 使用iloc方法将数据中第100,105,108行的“Pclass”,“Name”,“Sex”的数据显示出来
df.iloc[[100,105,108],[2,3,4]]

4、使用pandas对数据进行排序

4.1、按行索引升序排序

df.sort_index()

4.2、让列索引升序排序

df.sort_index(axis=1)

4.3、让列索引降序排序

df.sort_index(axis=1,ascending=False)

4.4、让任选两列数据同时降序排序

df.sort_values(by=['a','b'])

Example

#自己构建一个都为数字的DataFrame数据
frame = pd.DataFrame(np.arange(8).reshape((2, 4)), 
                     index=['2', '1'], 
                     columns=['d', 'a', 'b', 'c'])
print(frame)
-----------------
    d   a   b   c
2   0   1   2   3
1   4   5   6   7

按某一列排序

# 大多数时候我们都是想根据列的值来排序,所以,将你构建的DataFrame中的数据根据某一列,降序排列
frame.sort_values(by='c', ascending=False)
------------------
    d   a   b   c
1   4   5   6   7
2   0   1   2   3
上一篇下一篇

猜你喜欢

热点阅读