如何使用R语言找出某一个通路的所有基因名字
上周为了督促自己有效的学习,立下了每周至少更一篇生信学习笔记的flag。
本打算从这周开始先写一系列的生信基础概念知识,没想到很快就接到了大佬Jimmy老师的一个小任务:如何拿到 KEGG数据库的 hsa04650 Natural killer cell mediated cytotoxicity通路的所有基因名字。
经过一下午的查资料,看代码,终于理顺了中间的相关知识,下面我将跟大家分享一下如何使用R语言找出hsa04650 Natural killer cell mediated cytotoxicity通路的所有基因名字。
一、安装R语言必须的包
首先,安装“KEGGREST”包,第一次安装时电脑显示与当前R语言版本不配,我的电脑是R-3.5.2版本,于是到官网下载了本地包,还是没有安装成功,最终bioconductor 的官网下载了安装代码,运行成功,其源代码如下:
image二、加载包,查看KEGG有哪些数据库
其源代码如下:
image结果显示这个包,包含了KEGG数据库的19个子数据库,其中4个主要的数据库为"pathway"、"genes" 、"ligand"、 "brite",其他的子数据库是在这4个数据库的基础上衍生出来的。
其中"pathway"数据库提供发生在细胞内各种反应的人工绘制途径图,以网络形式呈现。"genes" 数据库存储KEGG中注册的已经测序的基因组信息。"ligand"数据库可以查询化合物、多糖以及酶促反应等信息。
"brite"是将生物信息按等级层次分类归纳的数据库,其中所包含的KEGG、KO是用于同源性识别的系统。其他的数据库就先不讲了,以后在学习中具体用到,在具体讲解。
三、返回信息表,获取 hsa04650 通路的信息
使用 organism 函数返回信息表;使用 keggGet 函数获取人类基因信号通路 hsa04650 的信息,结果包括通路里面的基因,基因间的联系方式,以及链接等等。其源代码如下:
image image image四、提取出GENE对象,查找所有基因
接下来我们提取出GENE对象,因为GENE这一个对象就是包含基因name的数据框,并查找所有基因,其源代码如下:
image image由于结果太大,笔记中只显示了部分主要结果。最后,想说的是我知道学习一个新知识很难,但一旦开始做了,就会慢慢变的简单,如果你觉的一个人很难坚持,跟和我们一起坚持学习,一起变的越来越好。
参考资料:
[1] 生信菜鸟团:http://www.bio-info-trainee.com/3533.html
[2]http://www.bioconductor.org/packages/release/bioc/html/KEGGREST.html
[3] https://blog.csdn.net/rojyang/article/details/82344002
[4]https://www.cnblogs.com/djx571/p/9634804.html https://www.docin.com/p371165058.htmlhttps://www.cnblogs.com/leezx/p/6221621.html?utm_source=itdadao&utm_medium=referral
[5]https://www.jianshu.com/p/e8b8896f64e9