学习小组Day7笔记—我爱一朵向阳花
2020-04-16 本文已影响0人
我爱一朵向阳花
测序基础知识
了解第一到三代测序技术
概述 第一代测序技术 第二代测序技术 第三代测序技术二代测序必备名词(引自教程作者:刘小泽)这个教程把接头上的东西讲得很清楚!
双端测序: 可能序列比较长有四五百bp,两边各测120-150bp
junction: 双端测序中间一些没有测到的区域
flowcell构造:一个lane包含两列(swath),每一列有60个tile,每个tile会种下不同的cluster,每个tile在一次循环中会拍照4次(每个碱基一次)
再引用一张接头图片,作为记录:
生信星球:Adapter介绍
DNA序列表征
记录一下常常忘记的各种字母
A =腺嘌呤
C =胞嘧啶
G =鸟嘌呤
T =胸腺嘧啶
U =尿嘧啶
R = GA(嘌呤)
Y = TC(嘧啶)
K = GT(酮)
M = AC(氨基)
S = GC
W = AT
B = GTC
D = GAT
H = ACT
V = GCA
N = AGCT(任何)
常用文件格式的转换命令和软件整理
Fastq文件→Fasta文件
Linux命令
#第一种
sed '/^@/!d;s//>/;N' your.fastq > your.fasta
#第二种
seqtk seq -A input.fastq > output.fasta
FASTX-Toolkit
•一款用于处理Short-Reads FASTA/FASTQ文件的程序,里面包含了丰富的Fasta/Fastq文件格式转换、统计等命令。
FASTX-Toolkit
EMBL → Fasta格式转换(在线工具):
http://www.geneinfinity.org/sms/sms_embltofasta.html
一个常见测序文件格式解析的网站,用于查找某种格式文件各行各列的含义:
https://genome.ucsc.edu/FAQ/FAQformat.html#format1
七天的学习小组任务完成!感谢花花(简书:小洁忘了怎么分身 )的指导和帮助。