学习笔记-机器学习我爱编程

学习笔记----机器学习(三)

2018-08-08  本文已影响0人  吉林天师

我是iOS开发者之一。我们的App:今日好出行

申明一下,只是学习笔记,只是学习笔记,只是学习笔记。


Pandas  是 一个时间序列数据处理包,起初只为了分析财经数据

1.基本数据结构

        series 可理解为一位数组

        s = pd.Series([4,2,5,0,6,3])

        DataFrame,表示二维数组

        df = pd.DataFrame(np.random.randn(6,4),columns=list('ABVD'))

        df.values 查看原始数据

        行索引查询  df.iloc[0]             列索引  df.A         维度  df.shape      前n行  df.head(4)       前n列 df.tail        行索引信息  df.index      列索引信息 df.colums       简单的计算 df.discribe()


2.数据排序    

            DataFrame.sort_index()函数 对索引行排序    df.sort_index(axis=1,ascending=False)

            DataFrame.sort_values()  对数值行排序 df.sort_values(by='B')


3.数据访问

        通过行索引范围来访问特定几行数据 df[3:5]   df['D','A','B']  

        选择某个元素   df.loc(3,'A')    df.iloc(3,0)     df.iloc[2:5,0:2]

        通过布尔值来选择,df[df.C>0]  C列大于0的数据所在行

        可添加一列为tag值以便查询,df["TAG"] = ["cat","dog","cat","cat","cat","dog",];

        根据tag分组统计    df.groupby('TAG').sum()


4.时间序列

        创建以时间序列为索引的数据集,以2010年1月1日起,创建366条数据

        n_items = 366    ts =pd.Series(np.random.randn(n_items),index=pd.date_range(    '20000101',periods=n_items    )    )

    print(ts.shape)

    ts.head(5)

按照月份聚合:ts.resample("lm").sum()


5.数据可视化

           示一

                plt.figure(figsize=(10,6),dpi=144)

                cs = ts.cumsum()

                    cs.plot()

            示二

                    plt.figure(figsize=(10,6),dpi=144)

                    ts.resample("1m").sum.plot.bar()


6.文件读写

         导入   df=pd.read_csv('data.csv',index_col=0)

        导出    DataFrame.to_csv( )

         源代码所在


不要评论,不要评论,有问题可以18809445769@163.com。

喜欢文章不可以,喜欢小树姐很可以!

上一篇下一篇

猜你喜欢

热点阅读