python基础-10-数据分析python——pandas——
2019-03-24 本文已影响0人
比特跃动
本章内容包括:导入数据、数据描述、排序、计数、分类、转置
导入数据
//input1
import pandas as pd
df=pd.read_csv('DataAnalyst_utf.csv')
df.head() //默认取前5
//output1
positionId city education bottom top avg workYear
0 2537336 上海 硕士 7 9 8.0 应届毕业生
1 2427485 上海 本科 10 15 12.5 应届毕业生
2 2511252 上海 本科 4 6 5.0 应届毕业生
3 2427530 上海 本科 6 8 7.0 应届毕业生
4 2245819 上海 本科 2 3 2.5 应届毕业生
数据描述
//input2
df.describe()
//output2
positionId bottom top avg
count 4.992000e+03 4992.000000 4992.000000 4992.000000
mean 2.188298e+06 12.544071 21.703726 17.123898
std 4.452785e+05 6.675768 11.513730 8.984811
min 8.030700e+04 1.000000 2.000000 1.500000
25% 2.046194e+06 8.000000 15.000000 11.500000
50% 2.350498e+06 10.500000 20.000000 15.000000
75% 2.494424e+06 15.000000 30.000000 22.500000
max 2.583183e+06 60.000000 100.000000 75.000000
//input3
df.avg.describe()
//output3
count 4992.000000
mean 17.123898
std 8.984811
min 1.500000
25% 11.500000
50% 15.000000
75% 22.500000
max 75.000000
Name: avg, dtype: float64
排序
//input4
df.sort_values(['avg','city'],ascending=False)
//output4
positionId city education bottom top avg workYear
1363 2573388 深圳 本科 50 100 75.0 5-10年
2844 2538369 北京 本科 50 100 75.0 3-5年
826 2568751 上海 本科 50 100 75.0 5-10年
834 2475927 上海 硕士 50 100 75.0 5-10年
3466 2462755 北京 本科 60 80 70.0 10年以上
4647 2324434 成都 本科 50 80 65.0 5-10年
4437 2478818 杭州 大专 40 80 60.0 3-5年
4552 2032485 杭州 本科 40 80 60.0 不限
3438 2480144 北京 本科 40 80 60.0 5-10年
3465 2266114 北京 硕士 50 70 60.0 10年以上
1378 2568716 深圳 本科 40 70 55.0 5-10年
3260 2539705 北京 本科 40 70 55.0 5-10年
3328 1631650 北京 本科 40 70 55.0 5-10年
3334 2573439 北京 本科 45 65 55.0 5-10年
773 2433090 上海 本科 35 70 52.5 5-10年
3092 2431500 北京 本科 40 60 50.0 3-5年
3238 2457114 北京 硕士 40 60 50.0 5-10年
3281 2547269 北京 本科 40 60 50.0 5-10年
3302 1849943 北京 硕士 40 60 50.0 5-10年
3320 2310858 北京 本科 40 60 50.0 5-10年
3468 2266113 北京 本科 40 60 50.0 10年以上
3587 701909 北京 本科 40 60 50.0 不限
635 2519292 上海 本科 40 60 50.0 3-5年
750 2323742 上海 硕士 40 60 50.0 5-10年
756 2482859 上海 硕士 40 60 50.0 5-10年
758 450723 上海 本科 40 60 50.0 5-10年
775 2519032 上海 本科 40 60 50.0 5-10年
799 2096082 上海 硕士 40 60 50.0 5-10年
812 1685839 上海 硕士 40 60 50.0 5-10年
842 2435344 上海 本科 40 60 50.0 10年以上
... ... ... ... ... ... ... ...
897 1582078 上海 本科 2 3 2.5 不限
901 2435058 上海 硕士 2 3 2.5 不限
911 2115738 上海 本科 2 3 2.5 不限
916 2278005 上海 本科 2 3 2.5 不限
917 1916200 上海 本科 2 3 2.5 不限
927 2237540 上海 本科 2 3 2.5 不限
943 2482299 上海 本科 2 3 2.5 不限
944 2192595 上海 本科 2 3 2.5 不限
1047 2294073 深圳 本科 1 2 1.5 1-3年
1468 2461690 深圳 本科 1 2 1.5 不限
1469 1242894 深圳 本科 1 2 1.5 不限
1487 2229437 深圳 大专 1 2 1.5 不限
4835 2266245 武汉 大专 1 2 1.5 不限
4668 2387728 成都 大专 1 2 1.5 不限
4669 2402450 成都 不限 1 2 1.5 不限
4106 2520510 广州 本科 1 2 1.5 不限
4124 2108099 广州 本科 1 2 1.5 不限
4127 2339876 广州 本科 1 2 1.5 不限
4695 2562974 南京 本科 1 2 1.5 1年以下
4714 2515308 南京 不限 1 2 1.5 1-3年
3658 2425211 北京 本科 1 2 1.5 不限
3738 2505127 北京 不限 1 2 1.5 不限
847 1400917 上海 硕士 1 2 1.5 不限
903 2409705 上海 不限 1 2 1.5 不限
913 2526626 上海 本科 1 2 1.5 不限
925 2459583 上海 本科 1 2 1.5 不限
929 2339316 上海 本科 1 2 1.5 不限
930 2253184 上海 大专 1 2 1.5 不限
952 2331091 上海 不限 1 2 1.5 不限
959 1778604 上海 本科 1 2 1.5 不限
4992 rows × 7 columns
//input5
df.sort_index()
//output5
positionId city education bottom top avg workYear
0 2537336 上海 硕士 7 9 8.0 应届毕业生
1 2427485 上海 本科 10 15 12.5 应届毕业生
2 2511252 上海 本科 4 6 5.0 应届毕业生
3 2427530 上海 本科 6 8 7.0 应届毕业生
4 2245819 上海 本科 2 3 2.5 应届毕业生
5 2580543 上海 本科 10 15 12.5 应届毕业生
6 1449715 上海 本科 7 14 10.5 应届毕业生
7 2568628 上海 硕士 5 7 6.0 应届毕业生
8 2416852 上海 本科 4 8 6.0 应届毕业生
9 1605795 上海 本科 2 4 3.0 应届毕业生
10 2157863 上海 本科 5 6 5.5 应届毕业生
11 2548985 上海 本科 2 4 3.0 应届毕业生
12 2392425 上海 本科 2 3 2.5 应届毕业生
13 1243515 上海 本科 4 6 5.0 应届毕业生
14 2392372 上海 硕士 4 8 6.0 应届毕业生
15 2427555 上海 本科 10 15 12.5 应届毕业生
16 2414480 上海 硕士 10 15 12.5 应届毕业生
17 2320870 上海 本科 6 8 7.0 应届毕业生
18 2411279 上海 本科 2 3 2.5 应届毕业生
19 2527100 上海 本科 3 4 3.5 应届毕业生
20 2561181 上海 本科 10 18 14.0 应届毕业生
21 2501433 上海 硕士 3 6 4.5 应届毕业生
22 2517307 上海 本科 6 8 7.0 应届毕业生
23 2388082 上海 本科 4 6 5.0 应届毕业生
24 2531473 上海 本科 4 6 5.0 应届毕业生
25 2168175 上海 本科 2 3 2.5 应届毕业生
26 2463114 上海 大专 4 5 4.5 应届毕业生
27 2428072 上海 本科 10 20 15.0 应届毕业生
28 2427495 上海 本科 10 15 12.5 应届毕业生
29 2427570 上海 本科 6 8 7.0 应届毕业生
... ... ... ... ... ... ... ...
4962 1818358 苏州 本科 20 40 30.0 5-10年
4963 180764 苏州 大专 15 25 20.0 5-10年
4964 2019293 苏州 本科 8 15 11.5 不限
4965 2568821 苏州 本科 6 8 7.0 不限
4966 480882 苏州 本科 5 8 6.5 不限
4967 2338327 天津 本科 2 4 3.0 应届毕业生
4968 1705654 天津 本科 4 8 6.0 1-3年
4969 2413458 天津 本科 6 8 7.0 1-3年
4970 2574960 天津 大专 6 9 7.5 1-3年
4971 2462767 天津 大专 5 8 6.5 1-3年
4972 2287749 天津 本科 4 6 5.0 1-3年
4973 2522790 天津 大专 3 5 4.0 1-3年
4974 2413373 天津 本科 10 15 12.5 3-5年
4975 2562872 天津 本科 8 10 9.0 3-5年
4976 2538845 天津 本科 8 15 11.5 3-5年
4977 1934925 天津 本科 10 20 15.0 3-5年
4978 1913388 天津 本科 6 12 9.0 3-5年
4979 2343332 天津 本科 15 20 17.5 5-10年
4980 1815094 天津 本科 3 6 4.5 不限
4981 2341255 天津 本科 4 6 5.0 不限
4982 2267253 天津 本科 6 8 7.0 不限
4983 2472967 天津 本科 12 20 16.0 不限
4984 2378458 天津 不限 3 4 3.5 不限
4985 2508187 天津 大专 3 5 4.0 不限
4986 636485 天津 本科 8 15 11.5 不限
4987 2582910 北京 本科 15 25 20.0 3-5年
4988 2583183 北京 本科 15 30 22.5 3-5年
4989 1832950 北京 本科 30 40 35.0 5-10年
4990 2582349 北京 不限 4 6 5.0 不限
4991 1757974 北京 本科 15 30 22.5 不限
4992 rows × 7 columns
//int6
df['rank']=df.avg.rank(ascending=False,method='min')
df
//output6
positionId city education bottom top avg workYear rank bins
0 2537336 上海 硕士 7 9 8.0 应届毕业生 4151.0 5-10
1 2427485 上海 本科 10 15 12.5 应届毕业生 3135.0 10-20
2 2511252 上海 本科 4 6 5.0 应届毕业生 4607.0 0-5
3 2427530 上海 本科 6 8 7.0 应届毕业生 4365.0 5-10
4 2245819 上海 本科 2 3 2.5 应届毕业生 4911.0 0-5
5 2580543 上海 本科 10 15 12.5 应届毕业生 3135.0 10-20
6 1449715 上海 本科 7 14 10.5 应届毕业生 3799.0 10-20
7 2568628 上海 硕士 5 7 6.0 应届毕业生 4498.0 5-10
8 2416852 上海 本科 4 8 6.0 应届毕业生 4498.0 5-10
9 1605795 上海 本科 2 4 3.0 应届毕业生 4854.0 0-5
10 2157863 上海 本科 5 6 5.5 应届毕业生 4568.0 5-10
11 2548985 上海 本科 2 4 3.0 应届毕业生 4854.0 0-5
12 2392425 上海 本科 2 3 2.5 应届毕业生 4911.0 0-5
13 1243515 上海 本科 4 6 5.0 应届毕业生 4607.0 0-5
14 2392372 上海 硕士 4 8 6.0 应届毕业生 4498.0 5-10
15 2427555 上海 本科 10 15 12.5 应届毕业生 3135.0 10-20
16 2414480 上海 硕士 10 15 12.5 应届毕业生 3135.0 10-20
17 2320870 上海 本科 6 8 7.0 应届毕业生 4365.0 5-10
18 2411279 上海 本科 2 3 2.5 应届毕业生 4911.0 0-5
19 2527100 上海 本科 3 4 3.5 应届毕业生 4814.0 0-5
20 2561181 上海 本科 10 18 14.0 应届毕业生 2994.0 10-20
21 2501433 上海 硕士 3 6 4.5 应届毕业生 4698.0 0-5
22 2517307 上海 本科 6 8 7.0 应届毕业生 4365.0 5-10
23 2388082 上海 本科 4 6 5.0 应届毕业生 4607.0 0-5
24 2531473 上海 本科 4 6 5.0 应届毕业生 4607.0 0-5
25 2168175 上海 本科 2 3 2.5 应届毕业生 4911.0 0-5
26 2463114 上海 大专 4 5 4.5 应届毕业生 4698.0 0-5
27 2428072 上海 本科 10 20 15.0 应届毕业生 2423.0 10-20
28 2427495 上海 本科 10 15 12.5 应届毕业生 3135.0 10-20
29 2427570 上海 本科 6 8 7.0 应届毕业生 4365.0 5-10
... ... ... ... ... ... ... ... ... ...
4962 1818358 苏州 本科 20 40 30.0 5-10年 255.0 20-30
4963 180764 苏州 大专 15 25 20.0 5-10年 1574.0 10-20
4964 2019293 苏州 本科 8 15 11.5 不限 3518.0 10-20
4965 2568821 苏州 本科 6 8 7.0 不限 4365.0 5-10
4966 480882 苏州 本科 5 8 6.5 不限 4443.0 5-10
4967 2338327 天津 本科 2 4 3.0 应届毕业生 4854.0 0-5
4968 1705654 天津 本科 4 8 6.0 1-3年 4498.0 5-10
4969 2413458 天津 本科 6 8 7.0 1-3年 4365.0 5-10
4970 2574960 天津 大专 6 9 7.5 1-3年 4251.0 5-10
4971 2462767 天津 大专 5 8 6.5 1-3年 4443.0 5-10
4972 2287749 天津 本科 4 6 5.0 1-3年 4607.0 0-5
4973 2522790 天津 大专 3 5 4.0 1-3年 4757.0 0-5
4974 2413373 天津 本科 10 15 12.5 3-5年 3135.0 10-20
4975 2562872 天津 本科 8 10 9.0 3-5年 3978.0 5-10
4976 2538845 天津 本科 8 15 11.5 3-5年 3518.0 10-20
4977 1934925 天津 本科 10 20 15.0 3-5年 2423.0 10-20
4978 1913388 天津 本科 6 12 9.0 3-5年 3978.0 5-10
4979 2343332 天津 本科 15 20 17.5 5-10年 2152.0 10-20
4980 1815094 天津 本科 3 6 4.5 不限 4698.0 0-5
4981 2341255 天津 本科 4 6 5.0 不限 4607.0 0-5
4982 2267253 天津 本科 6 8 7.0 不限 4365.0 5-10
4983 2472967 天津 本科 12 20 16.0 不限 2342.0 10-20
4984 2378458 天津 不限 3 4 3.5 不限 4814.0 0-5
4985 2508187 天津 大专 3 5 4.0 不限 4757.0 0-5
4986 636485 天津 本科 8 15 11.5 不限 3518.0 10-20
4987 2582910 北京 本科 15 25 20.0 3-5年 1574.0 10-20
4988 2583183 北京 本科 15 30 22.5 3-5年 965.0 20-30
4989 1832950 北京 本科 30 40 35.0 5-10年 161.0 30-100
4990 2582349 北京 不限 4 6 5.0 不限 4607.0 0-5
4991 1757974 北京 本科 15 30 22.5 不限 965.0 20-30
4992 rows × 9 columns
计数
//input7
df.workYear.value_counts()
//output7
3-5年 1837
1-3年 1647
不限 720
5-10年 584
应届毕业生 135
1年以下 52
10年以上 17
Name: workYear, dtype: int64
//input8
df.avg.cumsum
//output8
<bound method Series.cumsum of 0 8.0
1 12.5
2 5.0
3 7.0
4 2.5
5 12.5
6 10.5
7 6.0
8 6.0
9 3.0
10 5.5
11 3.0
12 2.5
13 5.0
14 6.0
15 12.5
16 12.5
17 7.0
18 2.5
19 3.5
20 14.0
21 4.5
22 7.0
23 5.0
24 5.0
25 2.5
26 4.5
27 15.0
28 12.5
29 7.0
...
4962 30.0
4963 20.0
4964 11.5
4965 7.0
4966 6.5
4967 3.0
4968 6.0
4969 7.0
4970 7.5
4971 6.5
4972 5.0
4973 4.0
4974 12.5
4975 9.0
4976 11.5
4977 15.0
4978 9.0
4979 17.5
4980 4.5
4981 5.0
4982 7.0
4983 16.0
4984 3.5
4985 4.0
4986 11.5
4987 20.0
4988 22.5
4989 35.0
4990 5.0
4991 22.5
Name: avg, Length: 4992, dtype: float64>
分类
//input9
df['bins']=pd.cut(df.avg,bins=[0,5,10,20,30,100],labels= ['0-5','5-10','10-20','20-30','30-100'])
df
//output9
positionId city education bottom top avg workYear rank bins
0 2537336 上海 硕士 7 9 8.0 应届毕业生 4151.0 5-10
1 2427485 上海 本科 10 15 12.5 应届毕业生 3135.0 10-20
2 2511252 上海 本科 4 6 5.0 应届毕业生 4607.0 0-5
3 2427530 上海 本科 6 8 7.0 应届毕业生 4365.0 5-10
4 2245819 上海 本科 2 3 2.5 应届毕业生 4911.0 0-5
5 2580543 上海 本科 10 15 12.5 应届毕业生 3135.0 10-20
6 1449715 上海 本科 7 14 10.5 应届毕业生 3799.0 10-20
7 2568628 上海 硕士 5 7 6.0 应届毕业生 4498.0 5-10
8 2416852 上海 本科 4 8 6.0 应届毕业生 4498.0 5-10
9 1605795 上海 本科 2 4 3.0 应届毕业生 4854.0 0-5
10 2157863 上海 本科 5 6 5.5 应届毕业生 4568.0 5-10
11 2548985 上海 本科 2 4 3.0 应届毕业生 4854.0 0-5
12 2392425 上海 本科 2 3 2.5 应届毕业生 4911.0 0-5
13 1243515 上海 本科 4 6 5.0 应届毕业生 4607.0 0-5
14 2392372 上海 硕士 4 8 6.0 应届毕业生 4498.0 5-10
15 2427555 上海 本科 10 15 12.5 应届毕业生 3135.0 10-20
16 2414480 上海 硕士 10 15 12.5 应届毕业生 3135.0 10-20
17 2320870 上海 本科 6 8 7.0 应届毕业生 4365.0 5-10
18 2411279 上海 本科 2 3 2.5 应届毕业生 4911.0 0-5
19 2527100 上海 本科 3 4 3.5 应届毕业生 4814.0 0-5
20 2561181 上海 本科 10 18 14.0 应届毕业生 2994.0 10-20
21 2501433 上海 硕士 3 6 4.5 应届毕业生 4698.0 0-5
22 2517307 上海 本科 6 8 7.0 应届毕业生 4365.0 5-10
23 2388082 上海 本科 4 6 5.0 应届毕业生 4607.0 0-5
24 2531473 上海 本科 4 6 5.0 应届毕业生 4607.0 0-5
25 2168175 上海 本科 2 3 2.5 应届毕业生 4911.0 0-5
26 2463114 上海 大专 4 5 4.5 应届毕业生 4698.0 0-5
27 2428072 上海 本科 10 20 15.0 应届毕业生 2423.0 10-20
28 2427495 上海 本科 10 15 12.5 应届毕业生 3135.0 10-20
29 2427570 上海 本科 6 8 7.0 应届毕业生 4365.0 5-10
... ... ... ... ... ... ... ... ... ...
4962 1818358 苏州 本科 20 40 30.0 5-10年 255.0 20-30
4963 180764 苏州 大专 15 25 20.0 5-10年 1574.0 10-20
4964 2019293 苏州 本科 8 15 11.5 不限 3518.0 10-20
4965 2568821 苏州 本科 6 8 7.0 不限 4365.0 5-10
4966 480882 苏州 本科 5 8 6.5 不限 4443.0 5-10
4967 2338327 天津 本科 2 4 3.0 应届毕业生 4854.0 0-5
4968 1705654 天津 本科 4 8 6.0 1-3年 4498.0 5-10
4969 2413458 天津 本科 6 8 7.0 1-3年 4365.0 5-10
4970 2574960 天津 大专 6 9 7.5 1-3年 4251.0 5-10
4971 2462767 天津 大专 5 8 6.5 1-3年 4443.0 5-10
4972 2287749 天津 本科 4 6 5.0 1-3年 4607.0 0-5
4973 2522790 天津 大专 3 5 4.0 1-3年 4757.0 0-5
4974 2413373 天津 本科 10 15 12.5 3-5年 3135.0 10-20
4975 2562872 天津 本科 8 10 9.0 3-5年 3978.0 5-10
4976 2538845 天津 本科 8 15 11.5 3-5年 3518.0 10-20
4977 1934925 天津 本科 10 20 15.0 3-5年 2423.0 10-20
4978 1913388 天津 本科 6 12 9.0 3-5年 3978.0 5-10
4979 2343332 天津 本科 15 20 17.5 5-10年 2152.0 10-20
4980 1815094 天津 本科 3 6 4.5 不限 4698.0 0-5
4981 2341255 天津 本科 4 6 5.0 不限 4607.0 0-5
4982 2267253 天津 本科 6 8 7.0 不限 4365.0 5-10
4983 2472967 天津 本科 12 20 16.0 不限 2342.0 10-20
4984 2378458 天津 不限 3 4 3.5 不限 4814.0 0-5
4985 2508187 天津 大专 3 5 4.0 不限 4757.0 0-5
4986 636485 天津 本科 8 15 11.5 不限 3518.0 10-20
4987 2582910 北京 本科 15 25 20.0 3-5年 1574.0 10-20
4988 2583183 北京 本科 15 30 22.5 3-5年 965.0 20-30
4989 1832950 北京 本科 30 40 35.0 5-10年 161.0 30-100
4990 2582349 北京 不限 4 6 5.0 不限 4607.0 0-5
4991 1757974 北京 本科 15 30 22.5 不限 965.0 20-30
4992 rows × 9 columns
转置
//input10
df.T
//output10
0 1 2 3 4 5 6 7 8 9 ... 4982 4983 4984 4985 4986 4987 4988 4989 4990 4991
positionId 2537336 2427485 2511252 2427530 2245819 2580543 1449715 2568628 2416852 1605795 ... 2267253 2472967 2378458 2508187 636485 2582910 2583183 1832950 2582349 1757974
city 上海 上海 上海 上海 上海 上海 上海 上海 上海 上海 ... 天津 天津 天津 天津 天津 北京 北京 北京 北京 北京
education 硕士 本科 本科 本科 本科 本科 本科 硕士 本科 本科 ... 本科 本科 不限 大专 本科 本科 本科 本科 不限 本科
bottom 7 10 4 6 2 10 7 5 4 2 ... 6 12 3 3 8 15 15 30 4 15
top 9 15 6 8 3 15 14 7 8 4 ... 8 20 4 5 15 25 30 40 6 30
avg 8 12.5 5 7 2.5 12.5 10.5 6 6 3 ... 7 16 3.5 4 11.5 20 22.5 35 5 22.5
workYear 应届毕业生 应届毕业生 应届毕业生 应届毕业生 应届毕业生 应届毕业生 应届毕业生 应届毕业生 应届毕业生 应届毕业生 ... 不限 不限 不限 不限 不限 3-5年 3-5年 5-10年 不限 不限
rank 4151 3135 4607 4365 4911 3135 3799 4498 4498 4854 ... 4365 2342 4814 4757 3518 1574 965 161 4607 965
bins 5-10 10-20 0-5 5-10 0-5 10-20 10-20 5-10 5-10 0-5 ... 5-10 10-20 0-5 0-5 10-20 10-20 20-30 30-100 0-5 20-30
9 rows × 4992 columns