2020-05-26
本人毛细血管,研究方向肿瘤学,目前主要在学习生信数据挖掘和肿瘤免疫微环境等,在后面的分享过程中主要分享自己学到的生信方面操作以及肿瘤免疫微环境相关的文献解读,现已发表meta分析相关论文若干,欢迎大家与我进一步深入交流,微光会吸引微光。
在目前纯生信几乎 “泛滥”的情况下,尤其是功能基因相关的纯生信文章,我等生信初手可考虑从lncRNA等上游方面来写生信,这样可能会新颖一些。今天和大家分享一下 lncRNA 生信的套路,看看2020年的 lncRNA 生信长什么样子。也许有人会说纯生信就是纯生信,不分那么多,也无非是跑跑代码而已,个人觉得这种话一般是已经到达一定层次的前辈说的,我等生信初手该学的东西还是得一样不落下的学习,和大家一起学习吧。这是我的简书号 (https://www.jianshu.com/u/a1a1bd026f30),或者简书搜索毛细血管1也可找到我。文章末尾附有PDF文献和我做的思维导图百度云链接。码字不易,尤其是对于打字较慢的我而言,如有可能希望得到大家的打赏。赶紧步入正题啦!!
数据来源和筛选
制定一些纳入标准和排除标准以获得符合条件的芯片数据
筛选数据.png
差异基因
先将筛选得到的两个芯片进行合并,我尝试过其中的一个芯片数据,对应的平台信息里面只提供了探针的序列,但是没有 gene symbol,这就需要找到数据库进行比对序列然后转化未 gene symbol. 还是那句老话“纸上得来终觉浅,与知此事要躬行”,多动手吧,能发现很多小小的问题,不解决的话,每一个都能让你没法往下走。
热图.png 差异基因分析.png
构建CeRNA网络
差异分析步骤中找到了差异的lncRNA, 然后根据根据这些lncRNA用miRNAcode数据库预测miRNA,最后在用miRNA预测靶基因。将预测到的靶基因和前面筛选到的编码蛋白的差异基因取交集就得到了ceRNA网络里面出现的lncRNA,miRNA 和 mRNA。
ceRNA 网络.png
构建ceRNA 网络.png
功能富集分析
利用clusterProfiler 包进行GO和KEGG富集分析,该步骤比较简单也很常规。展现的形式为气泡图。
气泡图.png
是不是感觉戏唱完了,并没有哦,好戏才刚刚开始
构建PPI网络
这里用的基因不是前面差异基因分析得到的DEGs, 而是在ceRNA网络里面得到的mRNA对应的基因。作者在这里是用STRING数据库进行的,没有导入cytoscape。然后筛选出连接最为紧密的hub gene。作者还在THAP数据库里面对4个hub gene 进行了高低表达的验证。
PPI.png
PPI 1.png
THPA 1.png
生存分析
对lncRNA和筛选到的5个hub gene在K-M plotter 里面做生存分析
生存分析.png
利用TCGA数据验证lncRNA的表达水平和诊断价值
![ AUC.pngTCGA1.png TCGA2.png
回顾旧知识
长链非编码RNA(Long non-coding RNA, lncRNA)是长度大于 200 个核苷酸的非编码 RNA。 研究表明, lncRNA 在剂量补偿效应 (Dosage compensation effect)、表观遗传调控、细胞周期调控和细胞分化调控等众多生命活动中发挥重要作用。
ROC曲线是以假阳性率(1-特异性)为横坐标,真阳性率(灵敏度)为纵坐标所绘制的一条曲线,是反映敏感度和特异度连续变量的综合指标。
对于同一试剂盒或检测系统,最靠近左上角的点为最佳临界点,点上的值为最佳临界值。该值对应的特异性和灵敏度都较好,作为CUT OFF值可使试剂盒拥有最优准确度。为了综合评估试剂盒的特异性和灵敏度,可以采用“约登指数(Youden index)”这一概念: 约登指数=特异性%+灵敏度%-1
最大约登指数 处所对应的截断点对应值作为CUT OFF值能够保证试剂盒的准确度最优。
福利
PDF文献和思维导图文件链接: 提取码:0hby