R语言:TCGA数据分析R语言学习R语言小技能

A taste of R language

2017-02-28  本文已影响96人  Javalover93

适合的阅读群体:
R语言初学者,或对R有兴趣的朋友。

为用而用

看了那么久的关于R的材料,我必须要试试看了。拿到一个数据集想要做做数据清理,结果各种碰壁,只知道如何去计算,而不知道如何去整理。无奈只能拿自己整理的一个小数据集“成龙电影豆瓣评分”来尝尝R做描述性数据分析的味道。
另外:
The RStuido's support for Chinese input is awful. 时好时坏的,代码里的中文也会被语法检测报错,但不影响编译。

数据文本

我自己爬取整理的数据:http://pan.baidu.com/s/1eSzdxi6
本文档的Rmd文档:http://pan.baidu.com/s/1eSJwkTW

食用指南

数据整理

各行代码的作用:

Jack_data <- read.delim('JackieChan.txt', header = TRUE, stringsAsFactors = FALSE, na.strings = c('评分人数不足'))
rating <- as.numeric(Jack_data[which(!is.na(Jack_data$评分) & Jack_data$成龙电影 == 'True'),3])
year <- Jack_data[which(!is.na(Jack_data$评分) & Jack_data$成龙电影 == 'True'),2]
jack <- data.frame(year, rating, stringsAsFactors = FALSE)
jack_yearly <- aggregate(jack, list(Year = jack$year), mean)
mean_all <- mean(rating)

绘制结果

各行代码的作用:

plot(jack_yearly$Year, jack_yearly$rating, type = 'b', xlab = 'Year', ylab = 'Annually Average Rating')
abline(h = mean_all, col = 'blue')
text(1975, 6.7, labels = 'Total Mean')
axis(1, at = seq(1970,2020,5))
title(main = 'Jack Chan Movie Rating Over the Years')
grid()
最后的图
上一篇 下一篇

猜你喜欢

热点阅读