1、Pandas数据观察
2020-08-17 本文已影响0人
thelong的学习日记
1、加载数据
1.1 导入相关库
import numpy as np
import pandas as pd
1.2 载入数据
使用相对路径载入文件
df = pd.read_csv('./train.csv')
使用绝对位置载入文件
df = pd.read_csv('/Users/../train.csv')
查看当前位置
print(os.getcwd())
内存不足时,需要逐块读取
chunker = pd.read_csv('train.csv',chunksize = 1000)
for data in chunker:
....
....
2、观察数据
df.info() #查看数据的基本信息
df.head(10) #查看前十行
df.tail(15) #查看后15行
df.describe() #查看数据基本统计信息
df.column() #查看Dataframe数据的所有列
df['Cabin'] #查看“Cabin”这列的所有样本
3、筛选
3.1、以“Age”为筛选条件,显示年龄在10岁以下的乘客信息
df[df['Age']<10]
3.2、以“Age”为条件,将年龄在10岁以上和50岁以下的乘客信息显示出来
df[(df['Age']>10)&(df['Age']<50)]
3.3、将数据中第100行的“Pclass”和“Sex”的数据显示出来
# index需要重新设置
df.reset_index(drop = True)
df.loc[[100],['Pclass','Sex']]
3.4、 使用iloc方法将数据中第100,105,108行的“Pclass”,“Name”,“Sex”的数据显示出来
df.iloc[[100,105,108],[2,3,4]]
4、使用pandas对数据进行排序
4.1、按行索引升序排序
df.sort_index()
4.2、让列索引升序排序
df.sort_index(axis=1)
4.3、让列索引降序排序
df.sort_index(axis=1,ascending=False)
4.4、让任选两列数据同时降序排序
df.sort_values(by=['a','b'])
Example
#自己构建一个都为数字的DataFrame数据
frame = pd.DataFrame(np.arange(8).reshape((2, 4)),
index=['2', '1'],
columns=['d', 'a', 'b', 'c'])
print(frame)
-----------------
d a b c
2 0 1 2 3
1 4 5 6 7
按某一列排序
# 大多数时候我们都是想根据列的值来排序,所以,将你构建的DataFrame中的数据根据某一列,降序排列
frame.sort_values(by='c', ascending=False)
------------------
d a b c
1 4 5 6 7
2 0 1 2 3