Linux学习与应用技巧生信linux

csvtk | 命令行下表格统计分析、数据筛选、替换、整理神器

2022-08-26  本文已影响0人  生信师姐

如同生物信息领域中的FASTA/Q格式一样,CSV/TSV作为计算机、数据科学和生物信息的基本格式,应用非常广泛。常用的处理软件包括:

然而,电子表格软件和文本编辑器固然强大,但依赖鼠标操作,不适合批量处理;sed/awk/cut等Shell命令主要用于通用的表格数据,不适合含有标题行的CSV格式;为了一个小操作写Python/R脚本也有点小题大作,且难以复用。开发csvtk前现有的工具主要是Python写的csvkit,Rust写的xsv,C语言写的miller,都各有优劣。作者沈伟之前刚开发完seqkit,投文章过程中时间充足,便想趁热再造一个轮子。所以决定写一个命令行工具来满足CSV/TSV格式的常见操作,这就是csvtk了。

一、安装

支持Windows/Mac/Linux的32和64位系统。用户根据自己的系统自取。

最新版发布页面:https://github.com/shenwei356/csvtk/releases

Linux 64位Ubuntu为例

# 下载,大小为7.46M
wget https://github.com/shenwei356/csvtk/releases/download/v0.19.1/csvtk_linux_amd64.tar.gz
# 解压后为16M
tar xvzf csvtk_linux_amd64.tar.gz
# 添加环境变量自己用,Ubuntu默认~/bin为环境变量
mkdir -p $HOME/bin/; cp csvtk $HOME/bin/
# 添加系统变量给所有人用 (可选)
sudo cp csvtk /usr/local/bin/

# Conda安装(依赖关系检查可能要好久)
conda install -c bioconda csvtk

二、介绍

1.基本信息

2.特性

3.功能

到目前为止,csvtk已有27个子命令,分为以下几大类:
信息

格式转化

集合操作

编辑

其它
version 版本信息和检查新版本
genautocomplete 生成支持Bash自动补全的配置文件,重启Terminal生效。

4.使用

三、例子

仅提供少量例子,更多例子请看使用手册http://bioinf.shenwei.me/csvtk/usage/

源代码:https://github.com/shenwei356/csvtk/

下载软件和测序数据

git clone git@github.com:shenwei356/csvtk.git
cd csvtk/testdata/ 

注意:

有些测序数据可能不在testdata中,可以自行根据下面页面显示内容保存;
软件默认为csv,使用-t参数改为tsv
命令后面可接输入文件,作者用cat inputfile 格式使命令中无输入文件,从 | 管道符读取数据,代码阅读更清楚

  1. 示例数据
 # 查看一个逗号分隔的名单示例文件
 $ cat names.csv
 id,first_name,last_name,username
 11,"Rob","Pike",rob
 2,Ken,Thompson,ken
 4,"Robert","Griesemer","gri"
 1,"Robert","Thompson","abc"
 NA,"Robert","Abel","123"
  1. 增强可读性
 # 格式化结果按列对齐,补空格
 $ cat names.csv  | csvtk pretty
 id   first_name   last_name   username
 11   Rob          Pike        rob
 2    Ken          Thompson    ken
 4    Robert       Griesemer   gri
 1    Robert       Thompson    abc
 NA   Robert       Abel        123

3.转为markdown,写博客、公众号超级有用

 $ cat names.csv | csvtk csv2md
 id |first_name|last_name|username
 :--|:---------|:--------|:-------
 11 |Rob       |Pike     |rob
 2  |Ken       |Thompson |ken
 4  |Robert    |Griesemer|gri
 1  |Robert    |Thompson |abc
 NA |Robert    |Abel     |123

效果

4.用列位置或列名来选择指定列,可改变列的顺序

 # 按列位置选择并可设置顺序
 $ cat names.csv | csvtk cut -f 3,1 | csvtk pretty
 # 按列名选择并可重排序列
 $ cat names.csv | csvtk cut -f last_name,id | csvtk pretty
 last_name   id
 Pike        11
 Thompson    2
 Griesemer   4
 Thompson    1
 Abel        NA

5.用通配符选择多列

 # 匹配内容可不可引号,有引号阅读更方便
 # *代表包括任意,多选择可用逗号,并行
 $ cat names.csv | csvtk cut -F -f '*name,id' | csvtk pretty
 first_name   last_name   username   id
 Rob          Pike        rob        11
 Ken          Thompson    ken        2
 Robert       Griesemer   gri        4
 Robert       Thompson    abc        1
 Robert       Abel        123        NA

6.删除第2,3列(下列第二种方法是选定范围,但-3在前,-2在后)

 # 指定列号
 $ cat names.csv | csvtk cut -f -2,-3 | csvtk pretty
 # 指定列范围
 $ cat names.csv | csvtk cut -f -3--2 | csvtk pretty
 # 指定列名
 $ cat names.csv | csvtk cut -f -first_name,-last_name | csvtk pretty
 id   username
 11   rob
 2    ken
 4    gri
 1    abc
 NA   123

7.按指定列搜索,默认精确匹配

 # -f指定id列,-p指定模式,默认匹配单元格,匹配1,不会匹配11。模糊可用通配符
 $ cat names.csv | csvtk grep -f id -p 1 | csvtk pretty
 id   first_name   last_name   username
 1    Robert       Thompson    abc

8.模糊搜索(正则表达式)

 # -r开启模糊匹配,只要包含即可
 $ cat names.csv | csvtk grep -f id -p 1 -r | csvtk pretty
 id   first_name   last_name   username
 11   Rob          Pike        rob
 1    Robert       Thompson    abc

9.用文件作为模式来源

 # 经常需要配置多个值,按列表数据筛选很方便
 $ cat names.csv | csvtk grep -f id -P id-files.txt

10.对指定列做简单替换

 # 支持正则的替换,匹配内容保存为$1,再修饰
 $ cat names.csv | csvtk replace -f id -p '(\d+)' -r 'ID: $1' | csvtk pretty
 id       first_name   last_name   username
 ID: 11   Rob          Pike        rob
 ID: 2    Ken          Thompson    ken
 ID: 4    Robert       Griesemer   gri
 ID: 1    Robert       Thompson    abc
 NA       Robert       Abel        123

11.用key-value文件来替换(seqkit和brename都支持类似操作)

 # 指定列表的替换
 $ cat data.tsv
 name    id
 A       ID001
 B       ID002
 C       ID004

 $ cat alias.tsv
 001     Tom
 002     Bob
 003     Jim

 # nr代表行号,kv代表将匹配的$1替换为-k文件中第2列
 $ csvtk replace -t -f 2 -p "ID(.+)" -r "N: {nr}, alias: {kv}" -k alias.tsv data.tsv
 name    id
 A       N: 1, alias: Tom
 B       N: 2, alias: Bob
 C       N: 3, alias: 004

12.合并表格,需要分别指定各文件中的key列:默认均为第一列;若列(名)相同提供一个;若不同用分号分割

 $ cat phones.csv
 username,phone
 gri,11111
 rob,12345
 ken,22222
 shenwei,999999

 # 按名合并,包括不匹配的值
 $ csvtk join -f 'username;username' --keep-unmatched names.csv phones.csv | csvtk pretty
 id   first_name   last_name   username   phone
 11   Rob          Pike        rob        12345
 2    Ken          Thompson    ken        22222
 4    Robert       Griesemer   gri        11111
 1    Robert       Thompson    abc
 NA   Robert       Abel        123

以上的内容是否能加速你的分析工作。

内容主要来自csvkt官方中文介绍 https://bioinf.shenwei.me/csvtk/chinese/。有改动,内容有增加

扩展阅读:
Usage and Examples https://bioinf.shenwei.me/csvtk/usage/
英文使用和示例,每个命令的使用实例

Tutorial https://bioinf.shenwei.me/csvtk/tutorial/ 具体应用教程,以OTU表为例

https://blog.csdn.net/woodcorpse/article/details/104683075

上一篇下一篇

猜你喜欢

热点阅读