探针寻找之旅(7)——RepeatExplorer的使用

2020-03-30  本文已影响0人  嗒嘀嗒嗒嘀嗒嘀嘀

实用工具NGS: QC and manipulation

button 功能
(ILLUMINA FASTQ) FASTQ Groomer Groomer需要第一个运行,以便用其他工具处理fastq文件。(需要注意选择合适的fastq质量分数类型)
(FASTQC: FASTQ/SAM/BAM) FASTQC 检测高通量测序数据的质量,如reads序列上的质量分数的分布、读长分布以及序列中不能确定的碱基数量;
(FASTX-TOOLKIT FOR FASTQ DATA) Filter by quality 舍弃低质量reads。通过质量统计画出质量分数箱图和碱基分布表,从而评估数据质量。该过程可选;
(GENERIC FASTQ MANIPULATION) FASTQ to FASTA converter 作为最后一步,将reads的格式转为FASTA。

附加工具Utilities

button 功能
Preprocessing of fastq paired-reads 处理双端测序fastq格式的reads,包括trimming, quality filtering, adapter filtering (cutadapt) and interlacing.
Preprocessing of fastq reads 处理单端测序fastq格式的reads,包括trimming, quality filtering, adapter filtering (cutadapt) and sampling.
FASTA read name affixer 在FASTA文件中序列的名字前后附上前后缀;
Sequence sampling 在数据集中随机取序列;
FASTQ Read name affixer FASTQ文件中序列的名字前后附上前后缀,去掉空格;
Rename Sequences 用数字替代FASTA文件中的reads名称,这样有助于保留原始名称;
FASTA interlacer 将不同文件中的paired reads合并成一个single interlaced file, 在该文件中相同pair被并列放在一起。该过程要求第一个文件每个read在第二个文件中必须要有与之相符的mate,并且得是在相同的position;
Scan paired reads 检测双端测序reads是否有序列重叠,这可能是由于片段过短而造成的;
RepeatMasker custom search 用RepeatMasker检测自定义的repeat数据库中之前的clustering结果;
Chip-Seq Mapper 将ChIP-seq和input reads map到由RepeatExplorer clustering得到的contigs;
参数 功能 注意
NGS Reads 指定FASTA格式文件 通常是由Pre-processing tools处理得到的文件.
paired-end reads 如果使用的是paired-end或mate-pair reads数据的话,需要将该项调整为yes 请使用RepeaExplorer --> Utilities --> FASTA interlacer 来完成此项准备,不要用NGS:QC and manipulation中的FASTQ interlacer,因为这个工具会消耗很大的内存,而且该工具只有当你分散的paired序列文件顺序不同时适用。
Sample size RepeatExplorer2会默认估计总的reads数,只有当你想用该算法运行个小的数据集时才需要设定该参数 reads数不能低于1000。
Advanced options 如果你想设置更加复杂的分析时需要将此项调整为yes,比如用自定义的数据库、作多物种比较分析等 此处还可以改变一些其他附加参数
Perform comparative analysis 当你需要分析多个样品时需要将该参数调整为yes, 并需要根据你的数据设置参数Group code length Group code length是用于标明reads名字中用于区分不同物种的前缀长度。Also, you can append sample codes to read names using one of them 此外,还可以用pre-processing tools read name affixer在reads的名字中附上样品编码
Use custom repeat database 用于给在clusters中的重复序列分类,对于在RepeatMasker数据库中代表性不足的物种推荐使用此项 该数据库得是个含DNA序列的fasta格式文件,而且要在每条序列的fasta名字上标明repeat type/family的信息(e.g., >sequence_id#Copia/Angela),RepeatMasker libraries中用的也是此种格式。自定义的library需要用Get Data --> Upload File上传到服务器。
Cluster size threshold for detailed analysis 为clusters生成包含各种数据和输出结果的目录。要选择的最小clusters值由一定比例的待分析reads数量决定(e.g., 对1,000,000 reads的数据集用默认值 0.01% 表示:所有包含大于100个reads的clusters将被记入分析) 不建议将此参数值设置的低于0.01%,因为这可能造成由cluster数量增多导致的计算时间延长
Perform automatic filtering of abundant satellite repeats 如果想要滤去数据中长片段的卫星重复序列以期让更多reads可以被分析,此项选择yes
Keep original sequence names 序列的名字默认是会重新命名的,如果想保留最初序列的名称则去掉该选项(不推荐) 对于双端测序reads若想保留初始名称,需要用最后一个字符来区分左右mates。对于comparative analysis此项不会影响Group code length参数
Perform cluster merging 此参数在TAREAN analysis中用到,此项合并在双端reads中明显关联的clusters there are several instances where pairs are split between two clusters (see section on cluster connectivity)

上一篇 下一篇

猜你喜欢

热点阅读