胶水Python机器学习

Python一周一模块:pandas-1

2019-06-11  本文已影响9人  爱折腾的大懒猪

前言

Pandas提供快速,灵活并且富有表达能力的数据结构,这些数据结构让我们能够更加容易和直观的处理关系型和代带标签的数据。它致力于成为在Python中对真实世界进行数据分析的基础高层次构建模块。

Pandas适合多种类型的数据:

pandas 最重要的两种数据结构是Series(一维)和DataFrame(二维), 基于Numpy, 速度快, 但如果要熟悉pandas使用, 最好事先学习Numpy使用.

Pandas的数据结构

Series 一维数据

官方文档:Series

import numpy as np
import pandas as pd
s=pd.Series([1,2,3,np.nan,5,6])
print(s) #索引在左边 值在右边
'''
0    1.0
1    2.0
2    3.0
3    NaN
4    5.0
5    6.0
dtype: float64
'''

类定义原型:

class pandas.Series(
    data=None, index=None, dtype=None, 
    name=None, copy=False, fastpath=False
)

DataFrame 二维数据

DataFrame是表格型数据结构,包含一组有序的列,每列可以是不同的值类型。DataFrame有行索引和列索引,可以看成由Series组成的字典。

官方文档:DataFrame

# 从字典赋值
d = {'col1': [1, 2], 'col2': [3, 4]}
df = pd.DataFrame(data=d)
df
'''
   col1  col2
0     1     3
1     2     4
'''

# 从二维数组赋值
df2 = pd.DataFrame(np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]]),
                                  columns=['a', 'b', 'c'])
'''
   a  b  c
0  1  2  3
1  4  5  6
2  7  8  9
'''

类定义原型:

class pandas.DataFrame(
    data=None, index=None, columns=None, 
    dtype=None, copy=False)

Reference

  1. pandas官方
上一篇下一篇

猜你喜欢

热点阅读