pandas 学习笔记(一)
2018-12-19 本文已影响0人
Vee__
1.pandas安装
pandas的安装非常简单,打开命令行工具直接输入
pip install pandas
如果电脑上同时存在python2 和 python3 的话
pip3 install pandas
pip2 install pandas
选择一个相应的pip进行安装
安装完成之后 在命令行进入python
>>> import pandas as pd
>>> pd.__version__
'0.23.4'
可以看到,pandas已经安装成功了,我的版本是0.23.4
2.pandas数据结构
pandas有两种数据结构
- Series
- DataFrame
Series对象
pandas的Series对象是一种带索引的数据组成的一维数据,每个数据带有自己索引,索引值默认从0
开始
创建Series对象可以通过
pd.Series(data=None,index=None,dtype=None)
其中重要的参数,
-
data
--Series数据 -
index
--Series索引值 -
dtype
--Series数据类型,一个Series只能存放一种数据类型
创建Series对象
- 可以指定
data
,data
可以是列表 或 numpy数组,索引值默认为从0
开始的整数值
>>>pd.Series(data=[1,2,3,4])
0 1
1 2
2 3
3 4
dtype: int64
左边一列为索引值
右边一列为数据值
- data可以是一个标量,指定索引值后,pandas自动填充数据值到每个索引上
>>> pd.Series(1,index=[1,2,3])
1 1
2 1
3 1
dtype: int64
- data可以是一个字典,键和值对分别代表
索引
和数据值
>>>pd.Series({1: '1', 2: '2', 3: '3'}) # 没有重复
1 1
2 2
3 3
dtype: object
>>> pd.Series({1: '1', 1: '2', 3: '3'}) # 索引重复
1 2
3 3
dtype: object
>>> pd.Series({1: '1', 2: '2', 3: '3', 4: '4'}, index=[2,4])
2 2
4 4
dtype: object
通过字典创建Series
- 如果字典的键重复,只会取一个值创建Series
- 指定为index指定参数,创建Series只保留指定索引值的数据
DataFrame
DataFrame是一个由多个Series列组成的数据结构,每一列都是一个Series。
创建DataFrame对象可以通过
pd.DataFrame(data=None, index=None, columns=None, dtype=None)
其中重要的参数,
-
data
--DataFrame数据 -
index
--DataFrame索引值 -
columns
--指定DataFrame列名 -
dtype
--DataFrame的数据类型,如果设定,会强制转换所有数据类型为dtype
- 由单个Series创建
>>> s = pd.Series([1,2,3,4])
>>> pd.DataFrame(s,columns='A') # 指定列名为‘A’
A
0 1
1 2
2 3
3 4
- 由字典创建,字典的值可以是数组,也可以是Series对象
>>> data = {
'A':[1,2,3],
'B':[4,5,6],
}
>>> pd.DataFrame(data)
A B
0 1 4
1 2 5
2 3 6
3.由列表或者numpy的二维数组创建
>>> pd.DataFrame([[1,2,3],[4,5,6]])
0 1 2
0 1 2 3
1 4 5 6
以上就是常用的创建Series和DataFrame的方式