Pandas处理txt文件并删除包含指定内容的行数据

2019-11-05  本文已影响0人  越大大雨天

最近使用pandas处理txt文本格式保存的数据需求比较多,有几个特殊处理的地方还花了两个小时的时间才解决,这也凸显了平时工作总结较少的劣势。

需求分析

需求是这样的,有个需要处理的txt文件,数据行数50万左右,模拟大致格式如下所示。

已知信息:
1、每行共5个字段均以";"英文符分开;字段分别为日期、城市、ID、字母代码、数字代码;
2、每个城市ID唯一,城市名可能有误;数字代码字段可能为空;
3、该文件中每个城市数据已按照日期字段降序排列。

需求目标:
1、去除空行
2、如果某个城市在最远日期下的数字代码字段为空,则删除该城市对应的所有数据。

2019-11-05;北京;ID000001;Z;8
2019-11-04;北京;ID000001;Z;8
2019-11-03;北京;ID000001;E;7
2019-11-02;北京;ID000001;Z;5

2019-11-05;上海;ID000002;E;7

2019-11-04;上海;ID000002;E;6
2019-11-03;上海;ID000002;E;
2019-11-03;上海;ID000002;E;5
2019-11-01;上海;ID000002;E;

2019-11-05;成都;ID000003;E;6
2019-11-04;成都;ID000003;D;
2019-11-03;成都;ID000003;E;
2019-11-03;成都;ID000003;D;
2019-11-01;成都;ID000003;E;5
2019-10-31;成都;ID000003;E;5

2019-11-05;广州;ID000002;E;7

2019-11-04;广州;ID000002;E;6
2019-11-03;广州;ID000002;E;
2019-11-03;广州;ID000002;E;5
2019-11-01;广州;ID000002;E;

代码示例

  1. 加载文本数据为Dataframe
    首先需要分隔文本文档并且读取为DataFrame格式:

使用map方法对可迭代对象中的每个元素进行函数操作,返回结果为一个生成器。

import pandas as pd

with open("history.txt", "r", encoding="utf8") as f:
    lines = f.readlines()
# 对每一行数据按";"进行分割,得到一个生成器对象,
# 内部为二维列表结构,可被DataFrame直接读取
pre_data = map(lambda x: x.split(";"), lines)
df = pd.DataFrame(pre_data)
print(df)

读取结果:

            0     1         2     3     4
0   2019-11-05    北京  ID000001     Z   8\n
1   2019-11-04    北京  ID000001     Z   8\n
2   2019-11-03    北京  ID000001     E   7\n
3   2019-11-02    北京  ID000001     Z   5\n
4           \n  None      None  None  None
5   2019-11-05    上海  ID000002     E   7\n
6           \n  None      None  None  None
7   2019-11-04    上海  ID000002     E   6\n
8   2019-11-03    上海  ID000002     E  \n
9   2019-11-03    上海  ID000002     E   5\n
...
  1. 数据预处理
    预处理数据,去除空行和列4中的换行符:
import pandas as pd

with open("history.txt", "r", encoding="utf8") as f:
    lines = f.readlines()

pre_data = map(lambda x: x.split(";"), lines)
df = pd.DataFrame(pre_data)
# 在源df上删除空行
df.dropna(axis=0, inplace=True)
# 对列对象使用str方法对每个元素进行str.strip()操作去除包括/n在内的空值
df[4] = df[4].str.strip()

print(df)

预处理结果:

             0   1         2  3  4
0   2019-11-05  北京  ID000001  Z  8
1   2019-11-04  北京  ID000001  Z  8
2   2019-11-03  北京  ID000001  E  7
3   2019-11-02  北京  ID000001  Z  5
5   2019-11-05  上海  ID000002  E  7
7   2019-11-04  上海  ID000002  E  6
8   2019-11-03  上海  ID000002  E   
9   2019-11-03  上海  ID000002  E  5
10  2019-11-01  上海  ID000002  E   
12  2019-11-05  成都  ID000003  E  6
13  2019-11-04  成都  ID000003  D   
14  2019-11-03  成都  ID000003  E   
15  2019-11-03  成都  ID000003  D   
16  2019-11-01  成都  ID000003  E  5
17  2019-10-31  成都  ID000003  E  5
19  2019-11-05  广州  ID000004  E  7
21  2019-11-04  广州  ID000004  E  6
22  2019-11-03  广州  ID000004  E   
23  2019-11-03  广州  ID000004  E  5
24  2019-11-01  广州  ID000004  E   
  1. 获取需要删除的城市id集合
    根据需求,若城市最远日期的数字代码字段为空,则需要删除该城市的所有行数据。
    我的思路是:先获取满足需求的城市id集合,再删除该集合包含的行数据。
import pandas as pd

with open("history.txt", "r", encoding="utf8") as f:
    lines = f.readlines()

pre_data = map(lambda x: x.split(";"), lines)
df = pd.DataFrame(pre_data)

df.dropna(axis=0, inplace=True)
df[4] = df[4].str.strip()

# 获取唯一值id去重后集合
id_set = set(df[2].to_list())
filter_id = []
for _id in id_set:
    # 遍历获取DataFrame中id值为指定值的df,并获取最后一条即最远日期的Series数据
    id_info = df[df[2]==_id].iloc[-1]
    # 若该最远日期城市的数字代码为空,则符合过滤判断逻辑,将它的id值添加进filter_id列表
    if id_info[4] is "":
        filter_id.append(id_info[2])

print(filter_id)

需删除的结果集合为:

['ID000004', 'ID000002']
  1. 删除指定数据,写入新文件
    根据所得集合,删除对应城市数据,并将新的结果按格式要求重新写入文本:
import pandas as pd

with open("history.txt", "r", encoding="utf8") as f:
    lines = f.readlines()

pre_data = map(lambda x: x.split(";"), lines)
df = pd.DataFrame(pre_data)

df.dropna(axis=0, inplace=True)
df[4] = df[4].str.strip()
print(df)
# 获取唯一值id去重后集合
id_set = set(df[2].to_list())
filter_id = []
for _id in id_set:
    # 遍历获取DataFrame中id值为指定值的df,并获取最后一条即最远日期的Series数据
    id_info = df[df[2] == _id].iloc[-1]
    # 若该最远日期城市的数字代码为空,则符合过滤判断逻辑,将它的id值添加进filter_id列表
    if id_info[4] is "":
        filter_id.append(id_info[2])

# 在df表中删除城市id在filter_id集合内的所有数据
result_df = df[-df[2].isin(filter_id)]
print(result_df)
with open("history_new.txt", "w", encoding="utf-8") as f:
    for i in range(len(result_df)):
        f.write(result_df.iat[i, 0] + ";" + result_df.iat[i, 1] + ";" + result_df.iat[i, 2] + ";" + result_df.iat[i, 3] + ";" + result_df.iat[i, 4])
        f.write("\n")

写入后history_new.txt中数据格式,可见过滤集合['ID000004', 'ID000002']中id对应的上海和广州数据已被删除,达到了最终的目的:

2019-11-05;北京;ID000001;Z;8
2019-11-04;北京;ID000001;Z;8
2019-11-03;北京;ID000001;E;7
2019-11-02;北京;ID000001;Z;5
2019-11-05;成都;ID000003;E;6
2019-11-04;成都;ID000003;D;
2019-11-03;成都;ID000003;E;
2019-11-03;成都;ID000003;D;
2019-11-01;成都;ID000003;E;5
2019-10-31;成都;ID000003;E;5

以上,Pandas常用方法很多,要熟练使用还得真的多用多总结才行,不然一个简单的需求都得找半天方法。

上一篇下一篇

猜你喜欢

热点阅读