R语言数据初步探索

2018-01-07  本文已影响0人  丛小贱

1. 初步了解数据变量情况

     attributes() 获得数据集的属性列表,对数据集结构的整体把握

     str() 获得数据的内部结构

     summary() 获得一系列统计指标值

        quantile() 计算各分位值

    describe() 获得更完整的数据分布(分位数上更细)

    basicStats() 获得更丰富的指标,方差、标准差、偏度、峰度等

        偏度:衡量数据的偏倚程度--正态分布完全对称偏度为0,[-1,1]区间对称性较强,也不存在明显的偏倚程度,>1右偏趋势反之左偏(右偏:密度分布曲线在右侧有较长尾部)

        峰度:集中与分散的程度--正态分布峰度为0,则若>0则表示对比正态分布更为陡峭,反之则更为平坦。若绝对值较大,则说明可能存在异常值

2.相关性--[-1,1]绝对值越大,相关性越大。正负表示正负向关系

    cor() 获取相关系数

    plotcorr() 绘制相关图,直观比较各变量相关程度

        圆形越窄,相关性越高

3.可视化

    hist() 直方图 

        breaks设定分组

    Ecdf() 累积分布图 -- Himsc包

    boxplot() 箱型图

        绘制分组箱型图进行交叉分析

    dotchart() 点阵图--呈现离散型变量各取值水平的分布情况

        legend() 添加图例

上一篇 下一篇

猜你喜欢

热点阅读