生物信息学习

使用Pandas合并多个表格

2022-11-06  本文已影响0人  正踪大米饭儿

大家好,我是小刘歌。介绍一个使用Pandas合并多个表格的程序。废话不多说,直接上代码。

import pandas as pd

# 读取每一个表
df1 = pd.read_csv("Agronomic.txt", sep="\t", header=0, index_col=0)
df2 = pd.read_csv("Callus.txt", sep="\t", header=0, index_col=0)
df3 = pd.read_csv("Germination.txt", sep="\t", header=0, index_col=0)
df4 = pd.read_csv("Kernel.txt", sep="\t", header=0, index_col=0)
df5 = pd.read_csv("SaltStress.txt", sep="\t", header=0, index_col=0)
df5.head()

# 按照索引列并集合并所有表格
df = pd.concat([df1, df2, df3, df4, df5], axis=1, join='outer')
df.head()

# 输出文件
df.to_csv("PhenoAll.txt", sep="\t",na_rep="NA")  # 缺失值使用NA表示

# 提取子集,文件包含一列想要提取的行名
list80 = pd.read_csv("DNA80List.txt", header=None).squeeze()
out = df[df.index.isin(list80.values.tolist())]

# 输出文件
out.to_csv("Pheno80.txt", sep="\t", na_rep="NA")

使用 mamba install -n base -c conda-forge pandas 进行 pandas 的安装。
mamba 的使用建议 google。

微信搜索「小刘哥」,欢迎关注。

上一篇下一篇

猜你喜欢

热点阅读