Pandas处理txt文件并删除包含指定内容的行数据
2019-11-05 本文已影响0人
越大大雨天
最近使用pandas处理txt文本格式保存的数据需求比较多,有几个特殊处理的地方还花了两个小时的时间才解决,这也凸显了平时工作总结较少的劣势。
需求分析
需求是这样的,有个需要处理的txt文件,数据行数50万左右,模拟大致格式如下所示。
已知信息:
1、每行共5个字段均以";"英文符分开;字段分别为日期、城市、ID、字母代码、数字代码;
2、每个城市ID唯一,城市名可能有误;数字代码字段可能为空;
3、该文件中每个城市数据已按照日期字段降序排列。
需求目标:
1、去除空行
2、如果某个城市在最远日期下的数字代码字段为空,则删除该城市对应的所有数据。
2019-11-05;北京;ID000001;Z;8
2019-11-04;北京;ID000001;Z;8
2019-11-03;北京;ID000001;E;7
2019-11-02;北京;ID000001;Z;5
2019-11-05;上海;ID000002;E;7
2019-11-04;上海;ID000002;E;6
2019-11-03;上海;ID000002;E;
2019-11-03;上海;ID000002;E;5
2019-11-01;上海;ID000002;E;
2019-11-05;成都;ID000003;E;6
2019-11-04;成都;ID000003;D;
2019-11-03;成都;ID000003;E;
2019-11-03;成都;ID000003;D;
2019-11-01;成都;ID000003;E;5
2019-10-31;成都;ID000003;E;5
2019-11-05;广州;ID000002;E;7
2019-11-04;广州;ID000002;E;6
2019-11-03;广州;ID000002;E;
2019-11-03;广州;ID000002;E;5
2019-11-01;广州;ID000002;E;
代码示例
- 加载文本数据为Dataframe
首先需要分隔文本文档并且读取为DataFrame格式:
使用map方法对可迭代对象中的每个元素进行函数操作,返回结果为一个生成器。
import pandas as pd
with open("history.txt", "r", encoding="utf8") as f:
lines = f.readlines()
# 对每一行数据按";"进行分割,得到一个生成器对象,
# 内部为二维列表结构,可被DataFrame直接读取
pre_data = map(lambda x: x.split(";"), lines)
df = pd.DataFrame(pre_data)
print(df)
读取结果:
0 1 2 3 4
0 2019-11-05 北京 ID000001 Z 8\n
1 2019-11-04 北京 ID000001 Z 8\n
2 2019-11-03 北京 ID000001 E 7\n
3 2019-11-02 北京 ID000001 Z 5\n
4 \n None None None None
5 2019-11-05 上海 ID000002 E 7\n
6 \n None None None None
7 2019-11-04 上海 ID000002 E 6\n
8 2019-11-03 上海 ID000002 E \n
9 2019-11-03 上海 ID000002 E 5\n
...
- 数据预处理
预处理数据,去除空行和列4中的换行符:
- dropna():删除空行/列,axis指定行或列,inplace=True表明在原表上修改。
- df[column].str.strip():列对象的str方法,对该列每个元素执行,也可自定义函数使用apply方法。
import pandas as pd
with open("history.txt", "r", encoding="utf8") as f:
lines = f.readlines()
pre_data = map(lambda x: x.split(";"), lines)
df = pd.DataFrame(pre_data)
# 在源df上删除空行
df.dropna(axis=0, inplace=True)
# 对列对象使用str方法对每个元素进行str.strip()操作去除包括/n在内的空值
df[4] = df[4].str.strip()
print(df)
预处理结果:
0 1 2 3 4
0 2019-11-05 北京 ID000001 Z 8
1 2019-11-04 北京 ID000001 Z 8
2 2019-11-03 北京 ID000001 E 7
3 2019-11-02 北京 ID000001 Z 5
5 2019-11-05 上海 ID000002 E 7
7 2019-11-04 上海 ID000002 E 6
8 2019-11-03 上海 ID000002 E
9 2019-11-03 上海 ID000002 E 5
10 2019-11-01 上海 ID000002 E
12 2019-11-05 成都 ID000003 E 6
13 2019-11-04 成都 ID000003 D
14 2019-11-03 成都 ID000003 E
15 2019-11-03 成都 ID000003 D
16 2019-11-01 成都 ID000003 E 5
17 2019-10-31 成都 ID000003 E 5
19 2019-11-05 广州 ID000004 E 7
21 2019-11-04 广州 ID000004 E 6
22 2019-11-03 广州 ID000004 E
23 2019-11-03 广州 ID000004 E 5
24 2019-11-01 广州 ID000004 E
- 获取需要删除的城市id集合
根据需求,若城市最远日期的数字代码字段为空,则需要删除该城市的所有行数据。
我的思路是:先获取满足需求的城市id集合,再删除该集合包含的行数据。
- df[column].to_list():将指定列数据转换为列表格式
- df[df[column=="example"]]筛选出指定列数据等于指定内容的DataFrame
- iloc[-1]:按行索引来获取行数据
import pandas as pd
with open("history.txt", "r", encoding="utf8") as f:
lines = f.readlines()
pre_data = map(lambda x: x.split(";"), lines)
df = pd.DataFrame(pre_data)
df.dropna(axis=0, inplace=True)
df[4] = df[4].str.strip()
# 获取唯一值id去重后集合
id_set = set(df[2].to_list())
filter_id = []
for _id in id_set:
# 遍历获取DataFrame中id值为指定值的df,并获取最后一条即最远日期的Series数据
id_info = df[df[2]==_id].iloc[-1]
# 若该最远日期城市的数字代码为空,则符合过滤判断逻辑,将它的id值添加进filter_id列表
if id_info[4] is "":
filter_id.append(id_info[2])
print(filter_id)
需删除的结果集合为:
['ID000004', 'ID000002']
- 删除指定数据,写入新文件
根据所得集合,删除对应城市数据,并将新的结果按格式要求重新写入文本:
- df[-df[column].isin([example1,example2])]:减号代表删除,删除指定列内容在集合对象内的行数据。
- df.iat[i, j]:DataFrame中指定行、列坐标位置的具体元素值。
import pandas as pd
with open("history.txt", "r", encoding="utf8") as f:
lines = f.readlines()
pre_data = map(lambda x: x.split(";"), lines)
df = pd.DataFrame(pre_data)
df.dropna(axis=0, inplace=True)
df[4] = df[4].str.strip()
print(df)
# 获取唯一值id去重后集合
id_set = set(df[2].to_list())
filter_id = []
for _id in id_set:
# 遍历获取DataFrame中id值为指定值的df,并获取最后一条即最远日期的Series数据
id_info = df[df[2] == _id].iloc[-1]
# 若该最远日期城市的数字代码为空,则符合过滤判断逻辑,将它的id值添加进filter_id列表
if id_info[4] is "":
filter_id.append(id_info[2])
# 在df表中删除城市id在filter_id集合内的所有数据
result_df = df[-df[2].isin(filter_id)]
print(result_df)
with open("history_new.txt", "w", encoding="utf-8") as f:
for i in range(len(result_df)):
f.write(result_df.iat[i, 0] + ";" + result_df.iat[i, 1] + ";" + result_df.iat[i, 2] + ";" + result_df.iat[i, 3] + ";" + result_df.iat[i, 4])
f.write("\n")
写入后history_new.txt中数据格式,可见过滤集合['ID000004', 'ID000002']中id对应的上海和广州数据已被删除,达到了最终的目的:
2019-11-05;北京;ID000001;Z;8
2019-11-04;北京;ID000001;Z;8
2019-11-03;北京;ID000001;E;7
2019-11-02;北京;ID000001;Z;5
2019-11-05;成都;ID000003;E;6
2019-11-04;成都;ID000003;D;
2019-11-03;成都;ID000003;E;
2019-11-03;成都;ID000003;D;
2019-11-01;成都;ID000003;E;5
2019-10-31;成都;ID000003;E;5
以上,Pandas常用方法很多,要熟练使用还得真的多用多总结才行,不然一个简单的需求都得找半天方法。