Pandas & Numpy & Network

2019-03-07 本文已影响122人无令便逐风

记性不好，多记录些常用的东西,真·持续更新中：：
先列出一些常用的网址:

习惯上我们如此导入:

import pandas as pd
import numpy as np
import networkx as nx
import maplotlib.pyplot as plt

pandas 篇

pd.Series是一种一维的数组结构，可以列表形式初始化，得到的Series的index默认∈[0,n)

s = pd.Series([1, 3, 5, np.nan, 6, 8])

pandas的index、columns用list初始化，具体内容用矩阵初始化DataFrame：

pd.date_range('20160101',periods=6)
df=pd.DataFrame(np.random.randn(6,4),index=dates,columns=['a','b','c','d'])

dates = pd.date_range('20190101', periods=6)
df = pd.DataFrame(np.random.randn(6, 4), index=dates, columns=list('ABCD'))

查看数据：

# 查看前n行 后n行
df.head(n)     df.tail(n)
# 查看快速统计摘要，注意describe也是一个df
df.describe()
# 转置 按轴排序(0x1y)，按列'B'的值排序
df.T
df.sort_index(axis=1, ascending=False)
df.sort_values(by='B')

选择数据

# 选择独列 [0,3)行 [0,3)列
df['A']    df[0:3]  df.iloc[;, [0, 1, 2]]
# 选择A B列还可以：
df.loc[:, ['A', 'B']]
# 获取dates[0]行的'A'列
df.loc[dates[0], 'A']
# loc前面加i表示利用数字而非名称来操作，比如取第3列
df.iloc[3]
# 比如取[3, 5)行的[0, 2)列:
df.iloc[3:5, 0:2]
# 行与列的切片:
df.iloc[1:3, :]  和 df.iloc[:, 1:3]
# 布尔索引 A列>0者， E列元素为'two' 或者 'four' 者
df[df.A > 0]   和 df[df['E'].isin(['two', 'four'])]
# 利用numpy 设置一组值
df.loc[:, 'D'] = np.array([5] * len(df))
# 利用where对某些值进行处理，比如大于0的取反
df[df>0] = -df
# 缺失数据的操作
df.dropna(how='any') 或者 df.fillna(value=5)
# 在不同轴上进行统计，mean是均值，一样0x1y
df.mean()   或者 df.mean(1)
# 数据应用于数据，例如累加，或者是lamda表达式
df.apply(np.cumsum)  或 df.apply(lambda x: x.max() - x.min())
# 排序数据
df.sort_values(by='columnsName')
# 对数据进行整理
df['columnName'].apply(lambda x : int(x))
# 删除列的4种方式
del data[列名]
del data.列名
data.drop(['列名'], axis=1, inplace=True) 
data.drop([[列的编号]], axis=1)
# 单独设置某一列的属性
df[['ISP']] = df[['ISP']].astype(int)

合并操作

# 如果是df组成的List，直接可以concat
pieces = [df1, df2, df3]
# ig..index 决定是否要重置index
pd.concat(pieces, ignore_index=True)，注意要列同质
# SQL风格的merge 类似于Join连接
pd.merge(left, right, how='left', on='key')
# 尾随hh 是往后面添加，用append，注意参数ignore_index=True才会重排index
df1.append(df2, ignore_index=True)

###### Grouping操作 和 Pivot 表
df.groupby('A') 或者多个的话 df.groupby(['A', 'B'])
pd.pivot_table(df, values='D', index=['A', 'B'], columns=['C'])

# 有时想groupby过后，其它列会有许多行值，想做一些处理，并另取名
df = pd.DataFrame({'A': [1,1,2,2], 'B':[1,2,3,4], 'C':np.random.randn(4)})
"""
    A   B   C
0   1   1   0.244355
1   1   2   0.982662
2   2   3   0.029819
3   2   4   0.563647
"""
df_res = df.groupby('A').agg(['min','max']).add_prefix('co_')
"""
   co_B                             co_C
   co_min co_max co_std co_mean co_min co_max co_std co_mean
A                               
1   1   2   0.707107    1.5 0.244355    0.982662    0.522062    0.613508
2   3   4   0.707107    3.5 0.029819    0.563647    0.377473    0.296733
"""

日期处理

# 读取日期的列，并自动进行转化
tim = pd.read_csv('../data/train_queries.csv', parse_dates=['req_time'])
# 想获取某两列时间的差值，秒，并换成整数
a, b = data['plan_time'], data['req_time']
data['time_diff'] =  ((a - b).dt.total_seconds()).fillna(0)
data['time_diff'] = data['time_diff'].astype(int)
print(data['time_diff'])
# 格式化，提取部分，比如只要月日
df['time'] = df['time'].apply(lambda x: x.strftime('%m-%d')).astype(str)

处理丢失数据

# 直接去掉nan所在的行or列，干脆利落
df.dropna(
    axis=0, # 行0列1
    how='any' # any但凡有nan就弃，all必须全nan才弃
)
# 填充
df.fillna(value=0)
# 前向填充'ffill'或者后向填充'bfill'
data['pid'].fillna(method='ffill')
# 判断是否有缺失数据，返回一个T/F的df
df.isnull()
# 判断是否有NaN，有就返回True
np.any(df.isnull()) == True

数据导入导出系列

import pandas as pd
# 读写csv，header决定是否有colums列说明
data = pd.read_csv('xxx.csv', header=None)
# sep是数据分隔的标记，默认是逗号
# index是否保留索引 默认保留
df.to_csv('xxx.csv', index=False, header=False, sep='?')
# 其它有用的参数有：
# na_rep="NA" 空值替换，默认是空格
# fload_format="%.2f" 数据保留2位小数
# 保留某些列而已 columns=['name', 'sex']
# 保存到pickle
data.to_pickle('xxx.pickle')

numpy 篇

# 创建数组
a = np.array([1,2,4])
# 指定数据类型 dtype
a = np.array([1,2,3]), dtype=np.float)
# 创建初始化好的x行y列的数组，如全0，全1等
np.zeros((x,y), dtype=np.int)  和 np.ones((x,y)), np.empty((x,y))
# 创建连续数组arange，1到100,步长为2
np.arange(1, 100, 2)
# reshape改变数据形状，注意要匹配得上
np.arange(15).reshape(3,5)
# linspace创建线形数据 [1,100]分成50份
np.linspace(1, 100, 50)

至于运算：

# 加减乘除都是点对点的，直接写就ok，比如
a-b  或者 a * b等
# 矩阵元素要乘方，用**，比如b^2
b**2
# 对数据进行逻辑判断，返回的是一个对应各个元素的True False组成的array
b < 3
# 矩阵点乘，随机矩阵，求sum min max
a.dot(b) 或者 np.dot(a, b)
np.random.random((2,4))
a.sum()  或 a.min() 或 a.max

Numpy array 合并

# 假设有np.array([1,1,1])和np.array([2,2,2])
np.vstack((A,B))  # [[1,1,1] [2,2,2]] vertival stack
np.hstack((A,B)) $ [1,1,1,2,2,2] horizontal stack
# array的转置，因为他不是矩阵，所以：
print(A[np.newaxis,;]) #[[1 1 1]]
print(A[np.newaxis,;].shape) # (1,3)
print(A[:,np.newaxis])
"""
[[1]
[1]
[1]]
"""
print(A[:,np.newaxis].shape)
# concatenate 函数会更统一一些，axis取0是成列，1成行
C.np.concatenate((A,B,B,A), axis=0)
D.np.concatenate((A,B,B,A), axis=1)

numpy的分割

A = np.arange(12).reshape(3,4)) # 3行4列
np.split(A, 2, axis=1) # 2行
np.split(A, 3, axis=3) # 3列
np.array_split(A, 3, axis=1) # 3行，不等量分割 即不均匀
# 方便地且对应地，有vsplit和hsplit
# v竖h横比如vsplit等于split(..., axis=0)
np.vsplit(A,3)

画图篇

# 随机生成1000个数据
data = pd.Series(np.random.randn(1000),index=np.arange(1000))
# 为了方便观看效果, 我们累加这个数据
data.cumsum()
# pandas 数据可以直接观看其可视化形式
data.plot()
plt.show()

# Dataframe里，一列一条线，4条：
data = pd.DataFrame(
    np.random.randn(1000,4),
    index=np.arange(1000),
    columns=list("ABCD"))
data.cumsum()
data.plot()
plt.show()

# 对于经常需要画的dataframe的其他绘图形式：　

df.plot(kind='bar') # 柱状图
df.plot(kind='barh') # 横柱状图
df.plot(kind='bar', stacked=True) # 柱状图堆叠
df.plot(kind='area')

# 如果想画的是df前10行的,行为x轴的变化:

for i in len(df):
  df.iloc[i].plot(label=str(i))
plt.legend()
plt.show()

具体的画图小技巧可以查这里
pandas除了plot，还有散点图scatter,柱状图bar，直方图hist，箱线图box，密度图kde，二维填充图area等。

说一下散点图scatter，最重要的就是指定x和y

ax=data.plot.scatter(x='A',y='B',color='DarkBlue',label='Class1')
# 将之下这个 data 画在上一个 ax 上面
data.plot.scatter(x='A',y='C',color='LightGreen',label='Class2',ax=ax)
plt.show()

NetworkX 篇

简单介绍

NetworkX is a Python package for the creation, manipulation, and study of the structure, dynamics, and functions of complex networks.
这个工具包对于图网络的处理非常有用，涵盖了很多算法，用法也非常友好。这里也贴出几个常用链接：

建议直接下一份pdf放着随时查。接下来直接说常规用法，首先：

import networkx as nx

Graph 创建

既然是处理网络，首先需要创建一个图对象，类型有：

G = nx.Graph()          # 无向图
G = nx.DiGraph()        # 有向图
G = nx.MultiGraph()     # 多重无向图
G = nx.MultiDigraph()   # 多重有向图
G.clear()               # 清空图

接着，需要给图添加内容，比如加点，加边：

G.add_edge(1, 2)             # default edge data=1
G.add_edge(2, 3, weight=0.9) # specify edge data
# 如果是边有许多的权，比如有长度和宽度的属性，那么：
G.add_edge(n1, n2, length=2, width=3)

elist = [(1, 2), (2, 3), (1, 4), (4, 2)]
G.add_edges_from(elist)
elist = [('a', 'b', 5.0), ('b', 'c', 3.0), ('a', 'c', 1.0), ('c', 'd', 7.3)]
G.add_weighted_edges_from(elist)

# 如果给结点的名称是其它符号，想离散化成从x开始的数字标记，那么：
G = nx.convert_node_labels_to_integers(G, first_label=x)

Graph 信息的获取

nx.info(G) # 图信息的概览
G.number_of_nodes()
G.number_of_edges()
# 获取和节点idx连接的边的attr属性之和
G.in_degree(idx, weight='attr')

# 如果想知道某个结点相连的某个边权之和：
DG.degree(nodeIdx, weight='weightName')

# 获取结点或者边的属性集合，返回的是元组的列表
G.nodes.data('attrName')
G.edges.data('attrName')

# 获取n1 n2的边的length权重，那么:
G[n1][n2]['length']
# 如果是有重边的图，选择n1,n2第一条边的length权重，则:
G[n1][n2][0]['length']

# 获取n1结点的所有邻居
nx.all_neighbors(G, n1)

# 判断图中n1到n2是否存在路径
nx.has_path(G, n1, n2)
# 根据一个结点的list，获取子图
subG = nx.subgraph(G, nodeList)

Graph 其他内置算法

# 最短路算法 返回最短路的路径列表
nx.shortest_path(G, n1, n2, method='dijkstra')
# 以及各种图的算法，比如流，割等等，大家可以看文档探索下

Graph 的绘制

# 最简单的绘制
import matplotlib.pyplot as plt
nx.draw(G)
plt.show()

# 设置其他乱七八糟的参数
nx.draw(G,
    with_labels=True,
    pos = nx.sprint_layout(G),
    node_color=color_list,
    edge_color='k',
    node_size=100,
    node_shape='o',
    linewidths=2,
    width=1.0,
    alpha=0.55,
    style='solid',
    font_size=9,
    font_color='k'
)