python数据处理

2017-07-13 本文已影响59人马尔克ov

重复值处理

drop_duplicate

缺失值

1.补全

2.删除行

dropna

读取数据时可以指定某些值为Null， na_values = ['a' , 'b']

isNA=df.isnull()

df[isNA[['key']].any(axis=1)]

df.fillna('value')

3.不处理

空值

lstrip清左边

rstrip清右边

strip清两边

字段抽取

slice(start, stop) 前闭后开区间

五.字段拆分

df['name'].str.split(' ', 1, True)

六.记录抽取

dataframe[condition]

逻辑运算，数字比较，字符串匹配

随机抽样

DataFrame.sample()

记录合并

concat([df1, df2])

字段合并

先df=df.astype(str)再+

字段匹配

merge等价于excel的vlookup，数据库的join

简单计算

增加一列必须用df['col_name']

标准化

scale到0-1，量纲统一

分组

cut(series=待分组数据, bins=间隔, right=开闭区间, label=标签)

时间处理

pd.to_datetime

strftime/strptime

dt.property抽取某一个

时间抽取

df.ix[]

df[condition

虚拟变量

离散特征编码pandas.get_dummies