描述性统计分析可以用来干什么
数据分析师不能仅仅靠着对数据的一种感觉和敏感来进行数据分析,这样的主观性太强,在合理必要的情况下,使用前人已经总结和使用的方法往往对我们更有帮助,但也要记住不要陷入这个指标误区中,核心还在于人,在于人对待问题的思考方式、解决办法。
描述性统计分析是统计分析的第一步,在日常的数据分析中其实经常使用一些特征值,尤其是我们做周报或者月报的分析时,这些描述性的统计分析特征值对我们有一定的帮助(什么帮助?),描述性统计分析是进行正确的统计推断的先决条件,通过数据的分布类型和特点,集中和离散程度可进行初步分析。
一般来说,平均数是统计学最常用的统计量,用于表示各观测值相对集中较多的中心位置,可以说是数据集中趋势的反映。
中位数:在数列中出现了极端变量值的情况下,用中位数作为代表值要比用算术平均数更好,因为中位数不受极端变量值的影响;如果研究目的就是为了反映中间水平,当然也应该用中位数,在统计数据的处理和分析时,可结合使用中位数。
统计术语解释:
http://blog.sina.com.cn/s/blog_49f78a4b0102dwz9.html
描述性统计,是描述或总结观察量的基本情况的统计总称。
{顺序数据是分类数据的一种,它的变量是有顺序的,或者说它的变量是有重要和不重要之分的。}
三种数据与描述性统计的关系:
https://zhuanlan.zhihu.com/p/33544707
如果是分类数据,分类数据是没有顺序,只有类别的,我们无法进行排序找到中位数,也不可能对其进行相加再除以总数计算起平均数,所以我们只能使用众数这一个选择。
顺序数据,是分类数据的一种,那么我们可以使用众数这一属性来描述顺序数据的集中趋势,同时还可以描述属性趋势的统计量——中位数。
数值型数据,可以看到数据分布。
众数始终是一组数据分布的最高峰;中位数处于一组数据中间的位置上;平均数则是全部数据的算数平均。
三种数据的使用方法:
1、众数
优点:不受极端值的影响
缺点:不具有唯一性,可能没有众数,也可能有多个众数
2、中位数
优点:永远在数据的中间位置,不受极端值影响。而且中位数是唯一确定的。
3、平均数:
缺点:容易受到极端值的影响
通过统计图分析这几个地区的平均值,中位数,众数和标准偏差,我们可以找出可以接受的价格的平均区域,然后再根据离散程度买房。
箱线图,可以比较不同数据的整体情况,识别异常值的结果比较客观。
描述性统计是我们理解分析并运用数据的前提,是一项很重要的能力。
搜集、分析、表达和解释数据是描述统计学的主要内容。对大量的护具信息进行归纳是处理数据时最基本的任务,但是数据越多事实越模糊,此时便需要将一系列复杂的数据减少为几个能起到关键描述性作用的数字。
对比平均数和中位数,可以找到数据往哪个方向偏。
异常值会影响平均数,影响我们的日常判断。比如在日常生活当中,我们会看到某某市某某行业某某房价现在均价已达到几万等等。
在我们被这些指标吓到的同时,我们还可能考虑到可能是某一个或几个地区的异常高的房价,一下拉高了该市整体的房价。
分布,可以描述数据的偏态和峰态。分布,就是把数据进行绘图,对每一个数据点进行计数,横轴是数据点的值,纵轴是该数据点出现的次数。峰态,就是在同一偏态下,数据的高低。
描述性统计学,往往研究数据的集中和离散。其中,各数据出现次数的情况,也是重要的一个研究方向。
频数分布表示互不重叠的组别种每一组项目的个数。在分类型数据中,频数分布就是各个分类类目的总数。
而在数值型数据中,如果转换成条形图,就会丧失可读性。
于是可以经过分组转换,讲数据划分到一个个区间范围内,可以间接认为把数值转换成了分类数据。
组数划分一般选择5-20组,数据量越大,划分的组数就能越多。划分的不同区间范围叫做组宽,组宽是人为定义的。组宽最好相等,且组与组之间连续。
组宽=(最大值-最小值)/组数。