Pandas处理txt文件并删除包含指定内容的行数据

2019-11-05 本文已影响0人越大大雨天

最近使用pandas处理txt文本格式保存的数据需求比较多，有几个特殊处理的地方还花了两个小时的时间才解决，这也凸显了平时工作总结较少的劣势。

需求分析

需求是这样的，有个需要处理的txt文件，数据行数50万左右，模拟大致格式如下所示。

已知信息：
1、每行共5个字段均以";"英文符分开；字段分别为日期、城市、ID、字母代码、数字代码；
2、每个城市ID唯一，城市名可能有误；数字代码字段可能为空；
3、该文件中每个城市数据已按照日期字段降序排列。

需求目标：
1、去除空行
2、如果某个城市在最远日期下的数字代码字段为空，则删除该城市对应的所有数据。

2019-11-05;北京;ID000001;Z;8
2019-11-04;北京;ID000001;Z;8
2019-11-03;北京;ID000001;E;7
2019-11-02;北京;ID000001;Z;5

2019-11-05;上海;ID000002;E;7

2019-11-04;上海;ID000002;E;6
2019-11-03;上海;ID000002;E;
2019-11-03;上海;ID000002;E;5
2019-11-01;上海;ID000002;E;

2019-11-05;成都;ID000003;E;6
2019-11-04;成都;ID000003;D;
2019-11-03;成都;ID000003;E;
2019-11-03;成都;ID000003;D;
2019-11-01;成都;ID000003;E;5
2019-10-31;成都;ID000003;E;5

2019-11-05;广州;ID000002;E;7

2019-11-04;广州;ID000002;E;6
2019-11-03;广州;ID000002;E;
2019-11-03;广州;ID000002;E;5
2019-11-01;广州;ID000002;E;

代码示例

加载文本数据为Dataframe
首先需要分隔文本文档并且读取为DataFrame格式：

使用map方法对可迭代对象中的每个元素进行函数操作，返回结果为一个生成器。

import pandas as pd

with open("history.txt", "r", encoding="utf8") as f:
    lines = f.readlines()
# 对每一行数据按";"进行分割，得到一个生成器对象，
# 内部为二维列表结构，可被DataFrame直接读取
pre_data = map(lambda x: x.split(";"), lines)
df = pd.DataFrame(pre_data)
print(df)

读取结果：

            0     1         2     3     4
0   2019-11-05    北京  ID000001     Z   8\n
1   2019-11-04    北京  ID000001     Z   8\n
2   2019-11-03    北京  ID000001     E   7\n
3   2019-11-02    北京  ID000001     Z   5\n
4           \n  None      None  None  None
5   2019-11-05    上海  ID000002     E   7\n
6           \n  None      None  None  None
7   2019-11-04    上海  ID000002     E   6\n
8   2019-11-03    上海  ID000002     E  \n
9   2019-11-03    上海  ID000002     E   5\n
...

数据预处理
预处理数据，去除空行和列4中的换行符：

dropna()：删除空行/列，axis指定行或列,inplace=True表明在原表上修改。
df[column].str.strip()：列对象的str方法，对该列每个元素执行，也可自定义函数使用apply方法。

import pandas as pd

with open("history.txt", "r", encoding="utf8") as f:
    lines = f.readlines()

pre_data = map(lambda x: x.split(";"), lines)
df = pd.DataFrame(pre_data)
# 在源df上删除空行
df.dropna(axis=0, inplace=True)
# 对列对象使用str方法对每个元素进行str.strip()操作去除包括/n在内的空值
df[4] = df[4].str.strip()

print(df)

预处理结果：

             0   1         2  3  4
0   2019-11-05  北京  ID000001  Z  8
1   2019-11-04  北京  ID000001  Z  8
2   2019-11-03  北京  ID000001  E  7
3   2019-11-02  北京  ID000001  Z  5
5   2019-11-05  上海  ID000002  E  7
7   2019-11-04  上海  ID000002  E  6
8   2019-11-03  上海  ID000002  E   
9   2019-11-03  上海  ID000002  E  5
10  2019-11-01  上海  ID000002  E   
12  2019-11-05  成都  ID000003  E  6
13  2019-11-04  成都  ID000003  D   
14  2019-11-03  成都  ID000003  E   
15  2019-11-03  成都  ID000003  D   
16  2019-11-01  成都  ID000003  E  5
17  2019-10-31  成都  ID000003  E  5
19  2019-11-05  广州  ID000004  E  7
21  2019-11-04  广州  ID000004  E  6
22  2019-11-03  广州  ID000004  E   
23  2019-11-03  广州  ID000004  E  5
24  2019-11-01  广州  ID000004  E

获取需要删除的城市id集合
根据需求，若城市最远日期的数字代码字段为空，则需要删除该城市的所有行数据。
我的思路是：先获取满足需求的城市id集合，再删除该集合包含的行数据。

df[column].to_list():将指定列数据转换为列表格式
df[df[column=="example"]]筛选出指定列数据等于指定内容的DataFrame
iloc[-1]:按行索引来获取行数据

import pandas as pd

with open("history.txt", "r", encoding="utf8") as f:
    lines = f.readlines()

pre_data = map(lambda x: x.split(";"), lines)
df = pd.DataFrame(pre_data)

df.dropna(axis=0, inplace=True)
df[4] = df[4].str.strip()

# 获取唯一值id去重后集合
id_set = set(df[2].to_list())
filter_id = []
for _id in id_set:
    # 遍历获取DataFrame中id值为指定值的df，并获取最后一条即最远日期的Series数据
    id_info = df[df[2]==_id].iloc[-1]
    # 若该最远日期城市的数字代码为空，则符合过滤判断逻辑，将它的id值添加进filter_id列表
    if id_info[4] is "":
        filter_id.append(id_info[2])

print(filter_id)

需删除的结果集合为：

['ID000004', 'ID000002']

删除指定数据，写入新文件
根据所得集合，删除对应城市数据，并将新的结果按格式要求重新写入文本：

df[-df[column].isin([example1,example2])]:减号代表删除，删除指定列内容在集合对象内的行数据。
df.iat[i, j]:DataFrame中指定行、列坐标位置的具体元素值。

import pandas as pd

with open("history.txt", "r", encoding="utf8") as f:
    lines = f.readlines()

pre_data = map(lambda x: x.split(";"), lines)
df = pd.DataFrame(pre_data)

df.dropna(axis=0, inplace=True)
df[4] = df[4].str.strip()
print(df)
# 获取唯一值id去重后集合
id_set = set(df[2].to_list())
filter_id = []
for _id in id_set:
    # 遍历获取DataFrame中id值为指定值的df，并获取最后一条即最远日期的Series数据
    id_info = df[df[2] == _id].iloc[-1]
    # 若该最远日期城市的数字代码为空，则符合过滤判断逻辑，将它的id值添加进filter_id列表
    if id_info[4] is "":
        filter_id.append(id_info[2])

# 在df表中删除城市id在filter_id集合内的所有数据
result_df = df[-df[2].isin(filter_id)]
print(result_df)
with open("history_new.txt", "w", encoding="utf-8") as f:
    for i in range(len(result_df)):
        f.write(result_df.iat[i, 0] + ";" + result_df.iat[i, 1] + ";" + result_df.iat[i, 2] + ";" + result_df.iat[i, 3] + ";" + result_df.iat[i, 4])
        f.write("\n")

写入后history_new.txt中数据格式，可见过滤集合['ID000004', 'ID000002']中id对应的上海和广州数据已被删除，达到了最终的目的：

2019-11-05;北京;ID000001;Z;8
2019-11-04;北京;ID000001;Z;8
2019-11-03;北京;ID000001;E;7
2019-11-02;北京;ID000001;Z;5
2019-11-05;成都;ID000003;E;6
2019-11-04;成都;ID000003;D;
2019-11-03;成都;ID000003;E;
2019-11-03;成都;ID000003;D;
2019-11-01;成都;ID000003;E;5
2019-10-31;成都;ID000003;E;5

以上，Pandas常用方法很多，要熟练使用还得真的多用多总结才行，不然一个简单的需求都得找半天方法。

Pandas处理txt文件并删除包含指定内容的行数据

需求分析

代码示例

猜你喜欢

热点阅读