18招!小白必备的数据分析招式(上)
菜鸟独白
Python语言之所以能在数据分析领域占有一席之地,能挑战MatLab和R的地位,除了它本身语言的简洁和优美之外!还有一个非常重要的原因就是它有Pandas这样的神兵利器来做作数据分析,今天我就把Pandas里面精华招式给大家分享一下!
我们用比较有名的泰坦尼克数据集来做示例,通过对这个数据集的处理,来讲一下数据分析的常见招式和基本手法,让小白也可以快速上手数据分析!
要点:
数据的基本处理
数据的提取
数据的初步清洗
数据的排序
1.拿到一个数据的基本处理
1).查看数据的维度
df.shape
>>
(891, 12)
这是一个891*12的数据集
2).查看数据的基本信息
df.info() #查看数据集的整体的数据类型,比如有的int,有的是float,有的时候还有datetime64等等
>>
或是看一下查看整个数据的整体的分布
df.describe()
>>
3).查看数据集的空值,或者说是缺失值
df.isnull().sum()
>> Age列有177个空值,Cabin有687,Embarked有2个
4).查看唯一值
df['Pclass'].unique() #比如查看数据里面 船仓的类别
>>
array([3, 1, 2])
5).查看数据集的前3行,后3行
df.head(3) #前3行
df.tail(3) #后3行
2.数据的提取
比如我们看一下下面的排序后的样本泰坦尼克数据集df3
6).按照索引的值进行提取:
df3.loc[630] #提取索引值为630的那一行
7).按照索引的位置进行提取
df3.loc[2]#取第三行的数据
8).取部分行和列
df3.iloc[2:5,:5]#取第二,三四行和前5列
9).按照条件提取
比如我们要提取仓位为小于2的,并且性别为女性的数据
df[(df['Pclass']<=2)&(df['Sex']=='female')]
3.数据的清洗
10).处理空值,用dropna删除空值
df.dropna(how='any') #发现Age中的空值会全部删掉
df.fillna(value=0)#用数据0来填充空值
df['Age'].fillna(df['Age'].mean())#用数据集里面的年龄均值来填充空值
11).对字符的处理,比如大小写的转换
df['Name'].map(str.upper).head(3)
12).对字符串的快速映射转换
df['Pclass']=df['Pclass'].map({1:'一等舱',2:'二等舱',3:'三等舱'})
df.head(3)
用map对序列可以轻松的进行转换处理,非常酷!
13).对数据集中的数据格式的改变
用dtypes可以查看数据的格式,对于的转换可以用astype来转换
df.dtypes
>>
df['Fare'].astype('int') #把原来的float64->int
14).更改列的名字
df.rename(columns={'Survived':'是否获救'})
15).去掉重复值
通过drop_duplicates可以快速的去掉重复值
df['Embarked'].drop_duplicates()#比如我们想知道登船的类别,去掉所有重复的数据
>>
16).数据的代替,替换
比如把male代替为男
df['Sex']=df['Sex'].replace('male','男')
df.head(3)
4.数据的排序
17).按照年龄进行降序排列
df.sort_values(by=['Age'],ascending=False).head(10)
18).按照index来排序
pandas是数据分析里面的神兵利器,非常好用也非常灵活!上面只是精选了一部分的招数,我们的后面会对数据的处理更多复杂技巧进行总结,敬请期待!