数据分析 随笔
2020-04-13 本文已影响0人
ZhSong
数据分析
DataFrame
- DataFrame 中的数据可以直接赋值成nan不需要进行转换,但是在别的数据结构中要想将值赋值成nan需要先将值转换为浮点类型
pandas之布尔索引
-
注意在DataFrame中不能使用连续的运算符,==需要使用&和|符号进行连接,而且两边需要用括号括起来==
df[(800<df["Count_AnimalName"]) & (df["Count_AnimalName"]<1000)]
-
假如我们想要找到所有的使用次数超过 700并且名字的字符串长度大于4的狗的名字,应该怎么选择?
df[(df["Count_AnimalName"]>700) & (df["Row_Labels"].str.len()>4)]
-
set_index方法
1
df.set_index("a",drop=False)
是将某一列作为索引,drop表示是否要删除该列 -
对于index,既可以对他求长度,也可以遍历,还可以强制转换为列表
-
.index.unique()方法,可以取出不重复的index
-
也可以设置两个索引
df.set_index(["a","b"]).index
-
处理缺失数据:
df[pd.notnull(df["列名"])]
// 利用索引遍历二维数组 count = 0 for i in range(len(data_list)): for j in range(len(data_list[i])): if j == 0: count += 1 print(count)
-
使用numpy数组中ndarray中的高级索引[0,1],[1,2]表示二维数组中第一行第二个和第二行第三个
-
将数据中的"?"或者其他符号的缺失值,先替换成np.nan,使用方法pd.replace("?",np.nan)