Stata+Python+R系列5:重复值处理
2020-03-28 本文已影响0人
凡有言说
日常处理数据时会使用Stata、Python和R,但疏于梳理总结,常会犯迷糊或是忘记命令。趁着学校尚未允许返校,有着整块时间可做小结,边干边精进。
由于各软件命令众多,以下仅为自己常用的一些,欢迎大家补充和交流~
友情提示:命令参数比较多,建议大家使用时多看帮助文档,添加合适的参数。
一、Stata
*1.查看重复值情况
duplicates list xxx
duplicates report xxx
duplicates tag xxx, gen(tag1)
*外部命令
unique xxx
*2.删除重复值
duplicates drop xxx, force
二、Python
#1.查看缺失值情况
data.duplicated(xxx)
#2.删除重复值
#列表
list(set(xxx))
#pandas序列、数据框
data.drop_duplicates()
三、R
#1.查看缺失值情况
duplicated(data$A)
#2.删除重复值
data[!duplicated(data$A),]
unique(data$A)
dplyr::distinct(data,A)
重复值处理.png