Pandas|数据合并以及随机排序

2022-10-05 本文已影响0人温暖的Lily

领导给了两个表格，查找重复内容的数据。数据合并使用merge函数，按照数据中具体的某⼀字段连接数据。常用的有以下几种方式：

pd.merge(数据1,数据2,on =' ',how =' ')

on表⽰按照哪个特征来找相同的字段，how是指两个DateFrame的拼接⽅式

merged_data = pd.merge(数据1，数据2，how = 'outer‘）全合并，求并集

merged_data = pd.merge(数据1，数据2，how = 'inner‘）只合并双方都有的列

merged_data = pd.merge(数据1，数据2，how = 'left‘）按数据1合并

merged_data = pd.merge(数据1，数据2，how = 'right‘）按数据2合并

我面对的问题，查找两个表格重复内容，代码为：

df=pd.merge(data1,data2,how='inner',on=['ISBN'])关键列名。

查出的结果，打乱顺序，使用sample函数：

data1 = data1.sample(frac=1.0)参数frac = 1.0相当于100%，0.6是60%