生信星球培训第六期

学习小组Day6学习笔记--徐沫沫

2018-09-23  本文已影响2人  徐沫沫

滴滴滴,第六天打卡~~~~

准备工作:

part1:学会获取一个R包的小抄

方法1:百度/谷歌
方法2:找Rstudio的cheatsheet网站
https://www.rstudio.com/resources/cheatsheets/
方法3: 生信星球公众号(教程用的包)

part2:初步了解tidyr包

part3:学习极简安装R包:

1.命令:library(tidyr),如果没有安装这个包,会报错,进行下一步;
2.下载和安装tydir,命令:install.packages("tidyr")
(默认安装到工作目录里,若是报错,打不开连接,可以换个镜像试试)

part4:关于数据框

1.新建数据框,命令:

a<-data.frame(GeneId = rep("gene5",times=3),SampleName =paste("Sample",1:3,sep=""),Expression=c(14,19,18))

新建一个数据框并赋值给a,括号里是“列名”=列值,注意,这里列名要加双引号

rep,表示重复,括号中填要重复的字符和重复次数。
paste,连接两个字符串,括号要填这两个字符串并指定分隔符(sep),没有分隔符就填sep=""。

字符串需要加双引号

  1. key-value
    “键值对” ,表示一种对应关系。“键”和“值”都是列名,如 SampleName 和 Expression 。
  2. 函数后面一般都要加括号,括号里第一个参数是数据框名。
  3. 字符串要加双引号(行名和列名也是字符串,但是可以不用加)。

part5:认识Tidy Data

一种组织表格数据的方式,提供了一种能够跨包使用的“统一”的数据格式:
每个变量(variable)占一列,每个情况(case)和观测值(observation)占一行。


终于进入正题:

1.Reshape Data

gather:将数据框转换为Tidy Data;
spread:让tidy data一夜回到解放前。哈哈哈~~~

image.png

或者,需合并的列名也可以列在最后:

2.Handle Missing Values

处理丢失的数据,即某些单元格有空值的情况。
三种处理方式:
(1) 删除整行
(2) 根据上下文(瞎)蒙一个
(3) 同一列的空值填上同一个数。

NA表示空值,所以新建的时候空着就好。

这花花老师发现的嘞,厉害厉害~~~~

3. Expand Tables

data_eg1<-data.frame(GeneId = rep("gene5",times=3),SampleName =paste("Sample",1:3,sep=""),Expression=c(14,19,18))
image.png
expand(data_eg1,GeneId,SampleName,Expression)
image.png

4.split cells

(把一列拆成两列。目测原列必须要有分隔符才行啊好像。)
原数据:


image.png image.png

今天就到这里咯~~~

上一篇 下一篇

猜你喜欢

热点阅读