用python按列合并多个文件

2018-10-23  本文已影响154人  琼脂糖

读入一个描述各文件名路径的文件,然后按照第一列合并指定的多个文件,输出一个汇总表。这里用于多个样本的count文件合并生成一个count矩阵文件。

1.1. 准备文件

import sys,os
import pandas as pd
units = pd.read_table("units.tsv", dtype=str).set_index(["sample","unit"], drop=False)
准备文件 unit.tsv

1.2. 文件路径

input_list=[]
for i in units.itertuples():
    input_dir = "%s_%s_CountNum.txt" % (i.sample,i.unit)
    input_list.append(input_dir)
input_list
input_list

得到input_list列表,包含6个文件的路径。

1.3. 读入文件

counts = [pd.read_table(f, index_col=0, usecols=[0, 1], header=None, skiprows=0)
          for f in input_list]

读取时,index_col=0指定index为第一列。

这里用到了列表生成式,将input_list列表中的每个文件分别作为一个元素存入counts列表中。这样counts是一个list,而其中每个元素是一个dataframe。

另外为何不写成for t,sample,unit in zip(counts,units.sample,units.unit)呢?因为units.sample是method不能迭代。而units.index是可以迭代的。

1.4. 修改列名

for t, (sample, unit) in zip(counts, units.index):
    t.columns = ["%s_%s" % (sample,unit)] #counts是列表 对列表中每个元素的columns赋值 

zip函数的作用是:zip(a,b)可以将a[1],b[1] ;a[2],b[2] ...对应起来。具体到这里就是将 t=counts[i] (一个dataframe),(sample,unit)=units.index[i] (一个tuple)对应起来。

aa.columns=["HBR_3"]columns需要给定一个由string元素组成的list。

这段代码的作用是给counts列表中的每一个data frame修改行名。行名为对应的sample_unit(如“HBR_1")。需保证counts和index是一一对应的。

1.5. 合并

matrix = pd.concat(counts, axis=1) 
matrix.index.name = "gene"

print(matrix)
matrix.to_csv("htseq_out.tsv", sep="\t")

pd.concat函数,将列表中的多个dataframe按index列(即第0列)横向合并。

2. Final code

import sys,os
import pandas as pd

os.chdir("XXXXX")
input_list=[]
units = pd.read_table("units.tsv", dtype=str).set_index(["sample","unit"], drop=False)

for i in units.itertuples():
    input_dir="%s_%s_CountNum.txt" % (i.sample, i.unit)
    input_list.append(input_dir)

counts = [pd.read_table(f, index_col=0, usecols=[0, 1], header=None, skiprows=0)
          for f in input_list]
          
for t, (sample, unit) in zip(counts, units.index):
    t.columns = ["%s_%s" % (sample,unit)] 

matrix = pd.concat(counts, axis=1) 
matrix.index.name = "gene"

matrix.to_csv("htseq_out.tsv", sep="\t")

3. 补充

3.1. 列表生成式

 [x * x for x in range(1, 11)]
# [1, 4, 9, 16, 25, 36, 49, 64, 81, 100]

可以用于循环创建列表。详细可以看列表生成式

3.2. zip 函数

zip函数用于将可迭代的对象作为参数,将对象中对应的元素打包成一个个元组,然后返回由这些元组组成的列表。

a = [1,2,3]
b = [4,5,6]

zipped = zip(a,b)     # 打包为元组的列表
#[(1, 4), (2, 5), (3, 6)]
上一篇 下一篇

猜你喜欢

热点阅读