用R语言计算统计学习题(下)
第8章 置信区间估计
8.25,电话公司调查安装费用,随机选取了500个家庭用户显示,其中135个愿意增购。
问题:求愿意增购的99%置信区间估计
这道题我搜索了一阵子,最后终于发现prop.test函数,方法就很简单了:
代码:prop.test(135,500,0.99) 135代表样本数X,500代表总数N,0.99代表置信区间。
答案是在0.23-0.31之间。
第9章 假设检验基础:单侧检验
9.53 据估计,约50%的消费者选择商品后又取消了订单。一家电商在新系统下选取了500个样本,其中210个在选择商品后取消了订单。
问题:在0.01的显著性水平下,是否有证据表明这类消费者比例低于50%?
假设样本容量为100,且有42个取消了订单?
因为情况只有取消或者不取消两种情况,参考《统计建模与R软件》P221种子发芽例题,可以用二项分布检验函数来做
代码为binom.test(210,500,p=0.5)
从结果可以看出,在500个样本测试中,p-value<0.01,所以拒绝原假设,比例低于原来的50%;而在100个样本测试中,p-value>0.01,所以同意原假设。
9.68 某银行在12-1点选取了15名顾客作为样本,记录了他们的排队等待时间(数据略)
问题:在0.05显著性水平上,有没有证据表明平均等待时间少于5分钟?
这道题用 单样本的t检验就可以了。代码是:
t.test(time,alternative = "greater", mu = 5)
从运算结果可以看出,P值拒绝原假设。
第10章 两个样本数值数据假设检验和单向方差分析
10.23 两组数据分别采集自接受某种治疗的病人前后情况,是否有证据表明治疗前后有所提高。
这道题当然是还用万能的 t检验。
概率p值大于0.05,无法拒绝原假设H0=H1,即移植前后密度没有显著变高。
这道题也可以用wilcox检验(R语言实战P150, 统计建模与R语言 P245),它是组间差异的非参数检验。
结论也是一样的。
不过诡异的是,10.82的R语言运行结果就和书本答案不同...各位可以自己run一下。
第14章 质量管理中的统计应用
某铁工厂连续32天,各检查500个样品,次品数如列表(数据略)。
问题:建立相应的P图,以及该过程是否处于统计控制状态。
这道题其实也是先用ts函数,画出时间序列图,
R语言里好像没有现成的P值函数,所以我按照《商务统计学》P446的公式自己写了一个。算出上下控制限值后,以此用abline画出参考线。
tproduct<-ts(steel,start=c(2016,1,1),frequency=365)
p=sum(steel)/500/32
UCL=p+3*sqrt((p*(1-p))/500)
LCL=p-3*sqrt((p*(1-p))/500)
plot(tproduct/500,ylim=c(0.018,0.08))
abline(h=mean(steel/500),col="red",lty=6)
abline(h=UCL,col="blue",lty=5)
可以看出,波动本身是在可允许范围内。
R语言本身的时间序列包也有波动值函数,主要有pp检验和adf检验。
install.packages("tseries");library(tseries)
pp.test(tproduct)
adf.test(tproduct)
但素,pp检验和adf检验的结果是相反的,两者的p值相差很远。pp检验和书的结论一致。搜索网页其他人好像也有类似情况,原因如何,还需探究。
《商务统计学》还有很多习题,但个人能力有限,很多未能和R语言函数有效联系。就写到这儿吧。希望各位不吝指教。