学习笔记----机器学习(三)
我是iOS开发者之一。我们的App:今日好出行
申明一下,只是学习笔记,只是学习笔记,只是学习笔记。
Pandas 是 一个时间序列数据处理包,起初只为了分析财经数据
1.基本数据结构
series 可理解为一位数组
s = pd.Series([4,2,5,0,6,3])
DataFrame,表示二维数组
df = pd.DataFrame(np.random.randn(6,4),columns=list('ABVD'))
df.values 查看原始数据
行索引查询 df.iloc[0] 列索引 df.A 维度 df.shape 前n行 df.head(4) 前n列 df.tail 行索引信息 df.index 列索引信息 df.colums 简单的计算 df.discribe()
2.数据排序
DataFrame.sort_index()函数 对索引行排序 df.sort_index(axis=1,ascending=False)
DataFrame.sort_values() 对数值行排序 df.sort_values(by='B')
3.数据访问
通过行索引范围来访问特定几行数据 df[3:5] df['D','A','B']
选择某个元素 df.loc(3,'A') df.iloc(3,0) df.iloc[2:5,0:2]
通过布尔值来选择,df[df.C>0] C列大于0的数据所在行
可添加一列为tag值以便查询,df["TAG"] = ["cat","dog","cat","cat","cat","dog",];
根据tag分组统计 df.groupby('TAG').sum()
4.时间序列
创建以时间序列为索引的数据集,以2010年1月1日起,创建366条数据
n_items = 366 ts =pd.Series(np.random.randn(n_items),index=pd.date_range( '20000101',periods=n_items ) )
print(ts.shape)
ts.head(5)
按照月份聚合:ts.resample("lm").sum()
5.数据可视化
示一
plt.figure(figsize=(10,6),dpi=144)
cs = ts.cumsum()
cs.plot()
示二
plt.figure(figsize=(10,6),dpi=144)
ts.resample("1m").sum.plot.bar()
6.文件读写
导入 df=pd.read_csv('data.csv',index_col=0)
导出 DataFrame.to_csv( )
不要评论,不要评论,有问题可以18809445769@163.com。
喜欢文章不可以,喜欢小树姐很可以!