对Pandas.DataFrame进行操作

2018-05-30  本文已影响0人  形式主义_5adc

Apply:

利用df.apply(func)的方法可以将函数func应用于DataFrame。

将隐函数应用于df

频率统计:

df.value_counts() 可以统计df中各元素出现的频率

对df中的元素进行频率统计

字符串操作:

DataFrame 包含了一系列对于字符串的操作:

str方法还可以对索引进行操作:

对列名进行操作

使用split方法可以将元素进行分割,返回的是装有一组list的Series:

对元素进行分割

可以使用get或[]对分割后list中的元素进行访问:

元素访问

split方法中的expand参数,可以选择是否将结果输出为dataframe:

元素的拼接:

将一个Series拼接成字符串:

正常情况下,NaN在拼接时被忽略,你也可以选择使用na_rep变量来指定替代NaN的字符:

指定替代字符

cat()可以接受一个类似list作为第一个参数。在这种情况下,Series的各元素将依次与参数中包含的各元素进行拼接。NaN与其他元素拼接仍为NaN:

join参数,两个Series的拼接可以输入join参数,其原理与SQL的join原理相似。join的可选值为: 'left', 'outer', 'inner', 'right'。(注:join需要0.23.0以上的版本)

contains(等价于match)函数可以检查Series中的元素是否含有相应格式的部分:

合并:

concat:

利用concat方法可以将不同的dataframe对象拼接。

merge方法可以将dataframe进行SQL风格的合并:

groupby方法可将元素进行分组,需要对分组对象应用相应的方法生成合适的数据结构:

时间序列:

如果DataFrame的数据是一定频率的数据,resample函数可以用来改变频率:

上一篇下一篇

猜你喜欢

热点阅读