用R提取非表格的特定行

2020-12-01 本文已影响0人 RaoZC

有时候我们需要提取非表格文件中含有某些符号的特定的行，例如，我们需要从下面fasta文件中提取所有包含">"的行，

image.png

基本思路是逐行读入，定位，按照定位提取每一行

a = readLines("GeneBank.faa")
b = grep(">",a)
str(b)

查找包含">"的行号

可以看到，使用grep后，我们得到包含“>”的行号，我们利用这个行号进行定位

c = a[b]
write.table(c,"ID.txt",quote = F, row.names = F)

即可得到如下结果

image.png