第四章,1:DNA操作Biostrings和BSgenome.H
2018-09-25 本文已影响0人
子鹿学生信
参考:Biostrings常量与序列容器http://blog.csdn.net/u014801157/article/details/24372449
Biostrings和BSgenome的使用体会_更新 http://blog.sina.com.cn/s/blog_61f013b80100vqyf.html
- 基本操作:互补、反向、反向互补、翻译、转录和逆转录
DNAString生成DNA对象,dna2rna()转换为RNA,transcribe()将dna转录成rna,rna2dna()rna转换成DNA, cDNA()对rna逆转录得到cDNA, codones查看rna三联子密码, complement()dna的互补链,reverseComplement()dna的反向互补链,reverse()dna的反向序列。
指定文件目录:filepath<-system.file("extdata","someORF.fa",package = "Biostrings")
- 统计人类基因组数据中的碱基频率
chr22NON<-mask(Hsapiens$chr22,"N")
Paste_Image.png
- 统计2号染色体数据中的碱基频率
alphabetFrequency(Hsapiens$chr22,baseOnly=TRUE)
Paste_Image.png
-
生成连续模板
my_pattern<-"TATAAAA" -
在chr22NON里匹配模板
mT=matchPattern(my_pattern,chr22NON)
head(mT)
Paste_Image.png -
查看匹配的数量
countPattern(my_pattern,chr22NON)
-
允许一个错配
mmT=matchPattern(my_pattern,chr22NON,max.mismatch = 1)
length(mmT) -
观察前五个匹配所在的weizhi
mismatch(my_pattern,mmT[1:5])
- 左侧将要匹配的序列
Lpattern<-"CTCCGAG"
Rpattern<-"GTTCACA" - 左右模板同时匹配,中间长度不超过500bp
LRsegment<-matchLRPatterns(Lpattern,Rpattern,500,Hsapiens$chr22)
LRsegment[1:10]
- 例4-4:模板匹配
- 提取所有探针序列, hgu133a2probe是自带的芯片数据
格式为:
A data frame with 247899 rows and 6 columns, as follows.
sequence | character | probe sequence |
---|---|---|
x | integer | x-coordinate on the array |
y | integer | y-coordinate on the array |
Probe.Set.Name | character | Affymetrix Probe Set Name |
Probe.Interrogation.Position | integer | Probe Interrogation Position |
Target.Strandedness | factor | Target Strandedness |
dict<-hgu133a2probe$sequence #将探针序列取出
length(dict) #所有探针数量
[1] 247899
unique(nchar(dict)) #几种探针长度
[1] 25
dict[1:3] #查看前三个
[1] "CACCCAGCTGGTCCTGTGGATGGGA" "GCCCCACTGGACAACACTGATTCCT"
[3] "TGGACCCCACTGGCTGAGAATCTGG"