转录组学Science相关 杂lncRNA分析

lncRNA-seq的一般分析流程

2020-01-25  本文已影响0人  因地制宜的生信达人

前面我们系统性的总结了circRNA的相关背景知识

同样的策略,我们也可以应用到lncRNA的学习。所以前面我们生信技能树发布了:lncRNA的一些基础知识 ,和lncRNA芯片的一般分析流程 ,现在就是lncRNA-seq数据的一般分析流程啦。

自学lncRNA-seq数据分析~学习大纲

lncRNA分析跟常见的mRNA-seq分析重合度很高,无非也是把测序的fastq文件mapping到参加基因组,获取转录本信息,转录本表达定量,表达量的差异分析,比较新的分析就是把转录本分成了lncRNA和mRNA,这样可以考虑它们之间的互相作用,也可以在实验设计的时候加入miRNA和CHIP-seq,这样多种数据结合分析,显得更高大上一点,也能更好的刻画机体状态,从而回答生物学假设。要完成全部lncRNA-seq数据分析的学习,需要非常大量的文献阅读

最经典的仍然是看表达差异

所以对于这样的lncRNA-seq数据,走我们标准的RNA-seq定量流程,针对gencode数据库的gtf文件拿到表达矩阵即可,这个表达矩阵里面就包含了lncRNA和mRNA,可以分开走走标准分析流程,火山图,热图,GO/KEGG数据库注释等等。这些流程的视频教程都在B站和GitHub了,目录如下:

仅仅是最后得到的差异分子,并不是以前的mRNA后面的基因名,而是miRNA,lncRNA,甚至circRNA的ID,看起来很陌生罢了。感兴趣可以细读表达芯片的公共数据库挖掘系列推文 ;

如果是芯片

发表期刊:《Mol Neurobiol》
影响因子:5.397

比如文章: Distinct Hippocampal Expression Profiles of Long Non-coding RNAs in an Alzheimer's Disease Model[J]. Molecular Neurobiology, 2016:1-14.构建大鼠疾病模型,对AD组(n = 10)和 control组(n = 10)进行芯片分析,生信分析差异lncRNA和mRNA。
Case-control组间发现315个显著差异的lncRNA(238个上调,77个下调)。同时发现311个显著差异的mRNA(191个上调,120个下调)。

如果是测序

研究人员收集7对肝内胆管癌(iCCA)和相邻正常组织进行RNA测序,研究lncRNA和mRNA的表达差异。在ICCA组织中,相对于正常组织有230个lncRNA差异表达提高了4倍,其中97个上调,133个下调。此外,169个lncRNA和597个mRNA形成了由766个网络节点和769个连接边缘组成的lncRNA-mRNA共表达网络。生物信息学分析发现这些失调的lncRNAs与胆固醇稳态、不溶性分子和脂质结合活性有关,并且在补体和凝血级联以及PPAR信号通路中富集。

文献是:Genome-wide analysis of long noncoding RNA and mRNA co-expression profile in intrahepatic cholangiocarcinoma tissue by RNA sequencing.Oncotarget, 2017,8(16):26591-26599.

你可以比较同样的实验设计

一个研究使用的是芯片,一个是测序,看看两者的差异基因情况的overlap情况,给大家的学徒作业哈!

其它数据分析重现的作业

2019年12月发表在SR的文章:Transcriptome analysis-identified long noncoding RNA CRNDE in maintaining endothelial cell proliferation, migration, and tube formation 数据在:GSE141126 感兴趣的朋友可以下载测序数据后走同样的流程,看看能不能得到类似的生物学结论的图表。

2019年12月发表在SR的文章:Transcriptome-wide Profiling of Cerebral Cavernous Malformations Patients Reveal Important Long noncoding RNA molecular signatures 数据在:GSE137596 感兴趣的朋友可以下载测序数据后走同样的流程,看看能不能得到类似的生物学结论的图表。然后作者本身还下载了GSE123968进行重新分析。

重点关注测序样本的选择,比如10 CCM patients and 4 controls from brain ,然后标准差异分析结果,比如得到 1,967 lncRNAs and 4,928 protein coding genes (PCGs) ,一般来说能重复出来这个结果就挺好的了。

值得注意的是RNA-seq其实比不上LncRNA芯片

当然了,这个是商业公司的宣传,为了突出Arraystar系列芯片的优点,具体评价大家可以自行斟酌。

LncRNAs在正常的生理过程和疾病中发挥重要功能,已成为科学研究热点。对于LncRNAs基因表达谱检测,芯片技术比RNA-seq有许多重要且不可替代的优势,仍然是LncRNAs表达谱检测的首选平台(附表),原因有如下几方面:

对非模式生物来说鉴定和发现新的lncRNA是重中之重

比如2019年06月发表在SR的文章:Systematic identification and characterization of Aedes aegypti long noncoding RNAs (lncRNAs) 就是一个比较新而且比较容易学习的鉴定和发现新的lncRNA的流程, 长链非编码RNA(long non-coding RNA,LncRNA)一般指不具有蛋白编码能力,转录本长度超过200 nt的RNA分子,包括intronic/exonic lncRNAs、antisense lncRNAs、overlapping lncRNA和long intergenic ncRNAs(lincRNAs)。 所以数据分析具有特殊性,主要是在非模式生物里面研究。

We identified a total of 4,689 novel lncRNA transcripts, of which 2,064, 2,076, and 549 were intergenic, intronic, and antisense respectively.

因为确实做这方面数据分析很少,所以就直接给出几个科研服务公司的例子,大家自行学习吧:

这两个文献参考:http://microread.com/scServ/9-921-323.html

如何区分mRNA与ncRNA是一个经典问题,方法主要分为以下4类:

一个标准的LncRNA-seq分析报告

这些年做生信技能树教程分享,陆陆续续接触了几千个生物信息学数据分析相关课题求助, 看过了太多的各种NGS测序后的结题报告。当然也不缺LncRNA-seq的,比如诺禾的报告数据分析目录如下:

可以看到,其实就定量后的差异分析和功能注释,比较偏向于LncRNA特殊性的分析就是LncRNA 特征分析和LncRNA 靶向 mRNA 预测,都是非常简单的。

LncRNA相关数据库

LncRNA作为一个研究热点也是火了不少年,所以相关LncRNA数据库不要太多,我这里谷歌搜索列出了一些,大家其实可以看看LncRNA数据库综述,就可以学习到其他人研究成果。

Lnc2Meth (http://www.bio-bigdata.com/Lnc2Meth/) 就是一个基于已有发表文献结果,对其中涉及到在特定研究疾病中的lncRNA及其甲基化结果进行了整理归纳收录的数据库。其中,对于每一个lncRNA都会提供DNA甲基化区域、类型和调控机制,而其是否在文献报道中有作为诊断分子以及其发表文献信息等都有整理。

lncSNP2.0 (http://210.46.80.146/lincsnp/search.php) 当仍不让的成为大家的首选工具,它是由华中科技大学研究人员开发的专门收录lncRNA和SNP关联信息的数据库,包含人和小鼠两个物种。

RegRNA2.0 (http://regrna2.mbc.nctu.edu.tw/index.html) 是由台湾同胞所研发的,专用来预测RNA功能性的motif序列,其预测内容包含转录motif、mRNA降解原件、RNA-RNA结合、翻译预测等功能。

11步学会LncRNA-seq数据分析

step1:read paper and get the workflow for lncRNA anlaysis

读文献,看数据分析流程,见Integration of Genome-wide Approaches Identifies lncRNAs of Adult Neural Stem Cells and Their Progeny In Vivo

step2:download the raw data from NCBI-GEO-SRA database

在文献里面找到测序数据,见 http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE45282

step3:quality control for the sequence data

step4:mapping the reads to reference genome/transcriptome

step5: de nove identification lncRNA

step6:counts the expression lever for each LncRNA

step7:find the differentially expressed LncRNA

step8: function anlaysis for the lncRNA

step9:lncRNA-mRNA co-expression network

step10: analysis of lncRNA-miRNA interactions

step11: Histone Modifications and lncRNA Expression

上一篇 下一篇

猜你喜欢

热点阅读