python基础-10-数据分析python——pandas——

2019-03-24  本文已影响0人  比特跃动

本章内容包括:导入数据、数据描述、排序、计数、分类、转置


导入数据

//input1
import pandas as pd
df=pd.read_csv('DataAnalyst_utf.csv')
df.head() //默认取前5




//output1
positionId  city    education   bottom  top  avg    workYear
0   2537336 上海      硕士       7       9    8.0     应届毕业生
1   2427485 上海      本科      10      15    12.5    应届毕业生
2   2511252 上海      本科      4       6     5.0     应届毕业生
3   2427530 上海      本科      6       8     7.0     应届毕业生
4   2245819 上海      本科      2       3     2.5     应届毕业生



数据描述

//input2
df.describe()




//output2
      positionId        bottom      top         avg    
count   4.992000e+03    4992.000000 4992.000000 4992.000000 
mean    2.188298e+06    12.544071   21.703726   17.123898   
std     4.452785e+05    6.675768    11.513730   8.984811    
min     8.030700e+04    1.000000    2.000000    1.500000    
25%     2.046194e+06    8.000000    15.000000   11.500000   
50%     2.350498e+06   10.500000    20.000000   15.000000   
75%     2.494424e+06   15.000000    30.000000   22.500000   
max     2.583183e+06    60.000000   100.000000  75.000000   









//input3
df.avg.describe()




//output3
count    4992.000000
mean       17.123898
std         8.984811
min         1.500000
25%        11.500000
50%        15.000000
75%        22.500000
max        75.000000
Name: avg, dtype: float64



排序

//input4
df.sort_values(['avg','city'],ascending=False)



//output4
    positionId  city    education   bottom  top avg workYear
1363    2573388 深圳  本科  50  100 75.0    5-10年
2844    2538369 北京  本科  50  100 75.0    3-5年
826 2568751 上海  本科  50  100 75.0    5-10年
834 2475927 上海  硕士  50  100 75.0    5-10年
3466    2462755 北京  本科  60  80  70.0    10年以上
4647    2324434 成都  本科  50  80  65.0    5-10年
4437    2478818 杭州  大专  40  80  60.0    3-5年
4552    2032485 杭州  本科  40  80  60.0    不限
3438    2480144 北京  本科  40  80  60.0    5-10年
3465    2266114 北京  硕士  50  70  60.0    10年以上
1378    2568716 深圳  本科  40  70  55.0    5-10年
3260    2539705 北京  本科  40  70  55.0    5-10年
3328    1631650 北京  本科  40  70  55.0    5-10年
3334    2573439 北京  本科  45  65  55.0    5-10年
773 2433090 上海  本科  35  70  52.5    5-10年
3092    2431500 北京  本科  40  60  50.0    3-5年
3238    2457114 北京  硕士  40  60  50.0    5-10年
3281    2547269 北京  本科  40  60  50.0    5-10年
3302    1849943 北京  硕士  40  60  50.0    5-10年
3320    2310858 北京  本科  40  60  50.0    5-10年
3468    2266113 北京  本科  40  60  50.0    10年以上
3587    701909  北京  本科  40  60  50.0    不限
635 2519292 上海  本科  40  60  50.0    3-5年
750 2323742 上海  硕士  40  60  50.0    5-10年
756 2482859 上海  硕士  40  60  50.0    5-10年
758 450723  上海  本科  40  60  50.0    5-10年
775 2519032 上海  本科  40  60  50.0    5-10年
799 2096082 上海  硕士  40  60  50.0    5-10年
812 1685839 上海  硕士  40  60  50.0    5-10年
842 2435344 上海  本科  40  60  50.0    10年以上
... ... ... ... ... ... ... ...
897 1582078 上海  本科  2   3   2.5 不限
901 2435058 上海  硕士  2   3   2.5 不限
911 2115738 上海  本科  2   3   2.5 不限
916 2278005 上海  本科  2   3   2.5 不限
917 1916200 上海  本科  2   3   2.5 不限
927 2237540 上海  本科  2   3   2.5 不限
943 2482299 上海  本科  2   3   2.5 不限
944 2192595 上海  本科  2   3   2.5 不限
1047    2294073 深圳  本科  1   2   1.5 1-3年
1468    2461690 深圳  本科  1   2   1.5 不限
1469    1242894 深圳  本科  1   2   1.5 不限
1487    2229437 深圳  大专  1   2   1.5 不限
4835    2266245 武汉  大专  1   2   1.5 不限
4668    2387728 成都  大专  1   2   1.5 不限
4669    2402450 成都  不限  1   2   1.5 不限
4106    2520510 广州  本科  1   2   1.5 不限
4124    2108099 广州  本科  1   2   1.5 不限
4127    2339876 广州  本科  1   2   1.5 不限
4695    2562974 南京  本科  1   2   1.5 1年以下
4714    2515308 南京  不限  1   2   1.5 1-3年
3658    2425211 北京  本科  1   2   1.5 不限
3738    2505127 北京  不限  1   2   1.5 不限
847 1400917 上海  硕士  1   2   1.5 不限
903 2409705 上海  不限  1   2   1.5 不限
913 2526626 上海  本科  1   2   1.5 不限
925 2459583 上海  本科  1   2   1.5 不限
929 2339316 上海  本科  1   2   1.5 不限
930 2253184 上海  大专  1   2   1.5 不限
952 2331091 上海  不限  1   2   1.5 不限
959 1778604 上海  本科  1   2   1.5 不限
4992 rows × 7 columns









//input5
df.sort_index()




//output5
positionId  city    education   bottom  top avg workYear
0   2537336 上海  硕士  7   9   8.0 应届毕业生
1   2427485 上海  本科  10  15  12.5    应届毕业生
2   2511252 上海  本科  4   6   5.0 应届毕业生
3   2427530 上海  本科  6   8   7.0 应届毕业生
4   2245819 上海  本科  2   3   2.5 应届毕业生
5   2580543 上海  本科  10  15  12.5    应届毕业生
6   1449715 上海  本科  7   14  10.5    应届毕业生
7   2568628 上海  硕士  5   7   6.0 应届毕业生
8   2416852 上海  本科  4   8   6.0 应届毕业生
9   1605795 上海  本科  2   4   3.0 应届毕业生
10  2157863 上海  本科  5   6   5.5 应届毕业生
11  2548985 上海  本科  2   4   3.0 应届毕业生
12  2392425 上海  本科  2   3   2.5 应届毕业生
13  1243515 上海  本科  4   6   5.0 应届毕业生
14  2392372 上海  硕士  4   8   6.0 应届毕业生
15  2427555 上海  本科  10  15  12.5    应届毕业生
16  2414480 上海  硕士  10  15  12.5    应届毕业生
17  2320870 上海  本科  6   8   7.0 应届毕业生
18  2411279 上海  本科  2   3   2.5 应届毕业生
19  2527100 上海  本科  3   4   3.5 应届毕业生
20  2561181 上海  本科  10  18  14.0    应届毕业生
21  2501433 上海  硕士  3   6   4.5 应届毕业生
22  2517307 上海  本科  6   8   7.0 应届毕业生
23  2388082 上海  本科  4   6   5.0 应届毕业生
24  2531473 上海  本科  4   6   5.0 应届毕业生
25  2168175 上海  本科  2   3   2.5 应届毕业生
26  2463114 上海  大专  4   5   4.5 应届毕业生
27  2428072 上海  本科  10  20  15.0    应届毕业生
28  2427495 上海  本科  10  15  12.5    应届毕业生
29  2427570 上海  本科  6   8   7.0 应届毕业生
... ... ... ... ... ... ... ...
4962    1818358 苏州  本科  20  40  30.0    5-10年
4963    180764  苏州  大专  15  25  20.0    5-10年
4964    2019293 苏州  本科  8   15  11.5    不限
4965    2568821 苏州  本科  6   8   7.0 不限
4966    480882  苏州  本科  5   8   6.5 不限
4967    2338327 天津  本科  2   4   3.0 应届毕业生
4968    1705654 天津  本科  4   8   6.0 1-3年
4969    2413458 天津  本科  6   8   7.0 1-3年
4970    2574960 天津  大专  6   9   7.5 1-3年
4971    2462767 天津  大专  5   8   6.5 1-3年
4972    2287749 天津  本科  4   6   5.0 1-3年
4973    2522790 天津  大专  3   5   4.0 1-3年
4974    2413373 天津  本科  10  15  12.5    3-5年
4975    2562872 天津  本科  8   10  9.0 3-5年
4976    2538845 天津  本科  8   15  11.5    3-5年
4977    1934925 天津  本科  10  20  15.0    3-5年
4978    1913388 天津  本科  6   12  9.0 3-5年
4979    2343332 天津  本科  15  20  17.5    5-10年
4980    1815094 天津  本科  3   6   4.5 不限
4981    2341255 天津  本科  4   6   5.0 不限
4982    2267253 天津  本科  6   8   7.0 不限
4983    2472967 天津  本科  12  20  16.0    不限
4984    2378458 天津  不限  3   4   3.5 不限
4985    2508187 天津  大专  3   5   4.0 不限
4986    636485  天津  本科  8   15  11.5    不限
4987    2582910 北京  本科  15  25  20.0    3-5年
4988    2583183 北京  本科  15  30  22.5    3-5年
4989    1832950 北京  本科  30  40  35.0    5-10年
4990    2582349 北京  不限  4   6   5.0 不限
4991    1757974 北京  本科  15  30  22.5    不限
4992 rows × 7 columns









//int6
df['rank']=df.avg.rank(ascending=False,method='min')
df




//output6
positionId  city    education   bottom  top avg workYear    rank    bins
0   2537336 上海  硕士  7   9   8.0 应届毕业生   4151.0  5-10
1   2427485 上海  本科  10  15  12.5    应届毕业生   3135.0  10-20
2   2511252 上海  本科  4   6   5.0 应届毕业生   4607.0  0-5
3   2427530 上海  本科  6   8   7.0 应届毕业生   4365.0  5-10
4   2245819 上海  本科  2   3   2.5 应届毕业生   4911.0  0-5
5   2580543 上海  本科  10  15  12.5    应届毕业生   3135.0  10-20
6   1449715 上海  本科  7   14  10.5    应届毕业生   3799.0  10-20
7   2568628 上海  硕士  5   7   6.0 应届毕业生   4498.0  5-10
8   2416852 上海  本科  4   8   6.0 应届毕业生   4498.0  5-10
9   1605795 上海  本科  2   4   3.0 应届毕业生   4854.0  0-5
10  2157863 上海  本科  5   6   5.5 应届毕业生   4568.0  5-10
11  2548985 上海  本科  2   4   3.0 应届毕业生   4854.0  0-5
12  2392425 上海  本科  2   3   2.5 应届毕业生   4911.0  0-5
13  1243515 上海  本科  4   6   5.0 应届毕业生   4607.0  0-5
14  2392372 上海  硕士  4   8   6.0 应届毕业生   4498.0  5-10
15  2427555 上海  本科  10  15  12.5    应届毕业生   3135.0  10-20
16  2414480 上海  硕士  10  15  12.5    应届毕业生   3135.0  10-20
17  2320870 上海  本科  6   8   7.0 应届毕业生   4365.0  5-10
18  2411279 上海  本科  2   3   2.5 应届毕业生   4911.0  0-5
19  2527100 上海  本科  3   4   3.5 应届毕业生   4814.0  0-5
20  2561181 上海  本科  10  18  14.0    应届毕业生   2994.0  10-20
21  2501433 上海  硕士  3   6   4.5 应届毕业生   4698.0  0-5
22  2517307 上海  本科  6   8   7.0 应届毕业生   4365.0  5-10
23  2388082 上海  本科  4   6   5.0 应届毕业生   4607.0  0-5
24  2531473 上海  本科  4   6   5.0 应届毕业生   4607.0  0-5
25  2168175 上海  本科  2   3   2.5 应届毕业生   4911.0  0-5
26  2463114 上海  大专  4   5   4.5 应届毕业生   4698.0  0-5
27  2428072 上海  本科  10  20  15.0    应届毕业生   2423.0  10-20
28  2427495 上海  本科  10  15  12.5    应届毕业生   3135.0  10-20
29  2427570 上海  本科  6   8   7.0 应届毕业生   4365.0  5-10
... ... ... ... ... ... ... ... ... ...
4962    1818358 苏州  本科  20  40  30.0    5-10年   255.0   20-30
4963    180764  苏州  大专  15  25  20.0    5-10年   1574.0  10-20
4964    2019293 苏州  本科  8   15  11.5    不限  3518.0  10-20
4965    2568821 苏州  本科  6   8   7.0 不限  4365.0  5-10
4966    480882  苏州  本科  5   8   6.5 不限  4443.0  5-10
4967    2338327 天津  本科  2   4   3.0 应届毕业生   4854.0  0-5
4968    1705654 天津  本科  4   8   6.0 1-3年    4498.0  5-10
4969    2413458 天津  本科  6   8   7.0 1-3年    4365.0  5-10
4970    2574960 天津  大专  6   9   7.5 1-3年    4251.0  5-10
4971    2462767 天津  大专  5   8   6.5 1-3年    4443.0  5-10
4972    2287749 天津  本科  4   6   5.0 1-3年    4607.0  0-5
4973    2522790 天津  大专  3   5   4.0 1-3年    4757.0  0-5
4974    2413373 天津  本科  10  15  12.5    3-5年    3135.0  10-20
4975    2562872 天津  本科  8   10  9.0 3-5年    3978.0  5-10
4976    2538845 天津  本科  8   15  11.5    3-5年    3518.0  10-20
4977    1934925 天津  本科  10  20  15.0    3-5年    2423.0  10-20
4978    1913388 天津  本科  6   12  9.0 3-5年    3978.0  5-10
4979    2343332 天津  本科  15  20  17.5    5-10年   2152.0  10-20
4980    1815094 天津  本科  3   6   4.5 不限  4698.0  0-5
4981    2341255 天津  本科  4   6   5.0 不限  4607.0  0-5
4982    2267253 天津  本科  6   8   7.0 不限  4365.0  5-10
4983    2472967 天津  本科  12  20  16.0    不限  2342.0  10-20
4984    2378458 天津  不限  3   4   3.5 不限  4814.0  0-5
4985    2508187 天津  大专  3   5   4.0 不限  4757.0  0-5
4986    636485  天津  本科  8   15  11.5    不限  3518.0  10-20
4987    2582910 北京  本科  15  25  20.0    3-5年    1574.0  10-20
4988    2583183 北京  本科  15  30  22.5    3-5年    965.0   20-30
4989    1832950 北京  本科  30  40  35.0    5-10年   161.0   30-100
4990    2582349 北京  不限  4   6   5.0 不限  4607.0  0-5
4991    1757974 北京  本科  15  30  22.5    不限  965.0   20-30
4992 rows × 9 columns



计数

//input7
df.workYear.value_counts()




//output7
3-5年     1837
1-3年     1647
不限        720
5-10年     584
应届毕业生     135
1年以下       52
10年以上      17
Name: workYear, dtype: int64









//input8
df.avg.cumsum




//output8
<bound method Series.cumsum of 0        8.0
1       12.5
2        5.0
3        7.0
4        2.5
5       12.5
6       10.5
7        6.0
8        6.0
9        3.0
10       5.5
11       3.0
12       2.5
13       5.0
14       6.0
15      12.5
16      12.5
17       7.0
18       2.5
19       3.5
20      14.0
21       4.5
22       7.0
23       5.0
24       5.0
25       2.5
26       4.5
27      15.0
28      12.5
29       7.0
        ... 
4962    30.0
4963    20.0
4964    11.5
4965     7.0
4966     6.5
4967     3.0
4968     6.0
4969     7.0
4970     7.5
4971     6.5
4972     5.0
4973     4.0
4974    12.5
4975     9.0
4976    11.5
4977    15.0
4978     9.0
4979    17.5
4980     4.5
4981     5.0
4982     7.0
4983    16.0
4984     3.5
4985     4.0
4986    11.5
4987    20.0
4988    22.5
4989    35.0
4990     5.0
4991    22.5
Name: avg, Length: 4992, dtype: float64>







分类

pandas.cut函数说明

//input9
df['bins']=pd.cut(df.avg,bins=[0,5,10,20,30,100],labels= ['0-5','5-10','10-20','20-30','30-100'])
df




//output9
    positionId  city    education   bottom  top avg workYear    rank    bins
0   2537336 上海  硕士  7   9   8.0 应届毕业生   4151.0  5-10
1   2427485 上海  本科  10  15  12.5    应届毕业生   3135.0  10-20
2   2511252 上海  本科  4   6   5.0 应届毕业生   4607.0  0-5
3   2427530 上海  本科  6   8   7.0 应届毕业生   4365.0  5-10
4   2245819 上海  本科  2   3   2.5 应届毕业生   4911.0  0-5
5   2580543 上海  本科  10  15  12.5    应届毕业生   3135.0  10-20
6   1449715 上海  本科  7   14  10.5    应届毕业生   3799.0  10-20
7   2568628 上海  硕士  5   7   6.0 应届毕业生   4498.0  5-10
8   2416852 上海  本科  4   8   6.0 应届毕业生   4498.0  5-10
9   1605795 上海  本科  2   4   3.0 应届毕业生   4854.0  0-5
10  2157863 上海  本科  5   6   5.5 应届毕业生   4568.0  5-10
11  2548985 上海  本科  2   4   3.0 应届毕业生   4854.0  0-5
12  2392425 上海  本科  2   3   2.5 应届毕业生   4911.0  0-5
13  1243515 上海  本科  4   6   5.0 应届毕业生   4607.0  0-5
14  2392372 上海  硕士  4   8   6.0 应届毕业生   4498.0  5-10
15  2427555 上海  本科  10  15  12.5    应届毕业生   3135.0  10-20
16  2414480 上海  硕士  10  15  12.5    应届毕业生   3135.0  10-20
17  2320870 上海  本科  6   8   7.0 应届毕业生   4365.0  5-10
18  2411279 上海  本科  2   3   2.5 应届毕业生   4911.0  0-5
19  2527100 上海  本科  3   4   3.5 应届毕业生   4814.0  0-5
20  2561181 上海  本科  10  18  14.0    应届毕业生   2994.0  10-20
21  2501433 上海  硕士  3   6   4.5 应届毕业生   4698.0  0-5
22  2517307 上海  本科  6   8   7.0 应届毕业生   4365.0  5-10
23  2388082 上海  本科  4   6   5.0 应届毕业生   4607.0  0-5
24  2531473 上海  本科  4   6   5.0 应届毕业生   4607.0  0-5
25  2168175 上海  本科  2   3   2.5 应届毕业生   4911.0  0-5
26  2463114 上海  大专  4   5   4.5 应届毕业生   4698.0  0-5
27  2428072 上海  本科  10  20  15.0    应届毕业生   2423.0  10-20
28  2427495 上海  本科  10  15  12.5    应届毕业生   3135.0  10-20
29  2427570 上海  本科  6   8   7.0 应届毕业生   4365.0  5-10
... ... ... ... ... ... ... ... ... ...
4962    1818358 苏州  本科  20  40  30.0    5-10年   255.0   20-30
4963    180764  苏州  大专  15  25  20.0    5-10年   1574.0  10-20
4964    2019293 苏州  本科  8   15  11.5    不限  3518.0  10-20
4965    2568821 苏州  本科  6   8   7.0 不限  4365.0  5-10
4966    480882  苏州  本科  5   8   6.5 不限  4443.0  5-10
4967    2338327 天津  本科  2   4   3.0 应届毕业生   4854.0  0-5
4968    1705654 天津  本科  4   8   6.0 1-3年    4498.0  5-10
4969    2413458 天津  本科  6   8   7.0 1-3年    4365.0  5-10
4970    2574960 天津  大专  6   9   7.5 1-3年    4251.0  5-10
4971    2462767 天津  大专  5   8   6.5 1-3年    4443.0  5-10
4972    2287749 天津  本科  4   6   5.0 1-3年    4607.0  0-5
4973    2522790 天津  大专  3   5   4.0 1-3年    4757.0  0-5
4974    2413373 天津  本科  10  15  12.5    3-5年    3135.0  10-20
4975    2562872 天津  本科  8   10  9.0 3-5年    3978.0  5-10
4976    2538845 天津  本科  8   15  11.5    3-5年    3518.0  10-20
4977    1934925 天津  本科  10  20  15.0    3-5年    2423.0  10-20
4978    1913388 天津  本科  6   12  9.0 3-5年    3978.0  5-10
4979    2343332 天津  本科  15  20  17.5    5-10年   2152.0  10-20
4980    1815094 天津  本科  3   6   4.5 不限  4698.0  0-5
4981    2341255 天津  本科  4   6   5.0 不限  4607.0  0-5
4982    2267253 天津  本科  6   8   7.0 不限  4365.0  5-10
4983    2472967 天津  本科  12  20  16.0    不限  2342.0  10-20
4984    2378458 天津  不限  3   4   3.5 不限  4814.0  0-5
4985    2508187 天津  大专  3   5   4.0 不限  4757.0  0-5
4986    636485  天津  本科  8   15  11.5    不限  3518.0  10-20
4987    2582910 北京  本科  15  25  20.0    3-5年    1574.0  10-20
4988    2583183 北京  本科  15  30  22.5    3-5年    965.0   20-30
4989    1832950 北京  本科  30  40  35.0    5-10年   161.0   30-100
4990    2582349 北京  不限  4   6   5.0 不限  4607.0  0-5
4991    1757974 北京  本科  15  30  22.5    不限  965.0   20-30
4992 rows × 9 columns



转置

//input10
df.T




//output10
    0   1   2   3   4   5   6   7   8   9   ... 4982    4983    4984    4985    4986    4987    4988    4989    4990    4991
positionId  2537336 2427485 2511252 2427530 2245819 2580543 1449715 2568628 2416852 1605795 ... 2267253 2472967 2378458 2508187 636485  2582910 2583183 1832950 2582349 1757974
city    上海  上海  上海  上海  上海  上海  上海  上海  上海  上海  ... 天津  天津  天津  天津  天津  北京  北京  北京  北京  北京
education   硕士  本科  本科  本科  本科  本科  本科  硕士  本科  本科  ... 本科  本科  不限  大专  本科  本科  本科  本科  不限  本科
bottom  7   10  4   6   2   10  7   5   4   2   ... 6   12  3   3   8   15  15  30  4   15
top 9   15  6   8   3   15  14  7   8   4   ... 8   20  4   5   15  25  30  40  6   30
avg 8   12.5    5   7   2.5 12.5    10.5    6   6   3   ... 7   16  3.5 4   11.5    20  22.5    35  5   22.5
workYear    应届毕业生   应届毕业生   应届毕业生   应届毕业生   应届毕业生   应届毕业生   应届毕业生   应届毕业生   应届毕业生   应届毕业生   ... 不限  不限  不限  不限  不限  3-5年    3-5年    5-10年   不限  不限
rank    4151    3135    4607    4365    4911    3135    3799    4498    4498    4854    ... 4365    2342    4814    4757    3518    1574    965 161 4607    965
bins    5-10    10-20   0-5 5-10    0-5 10-20   10-20   5-10    5-10    0-5 ... 5-10    10-20   0-5 0-5 10-20   10-20   20-30   30-100  0-5 20-30
9 rows × 4992 columns
上一篇下一篇

猜你喜欢

热点阅读