第一章 数据分析的基础
2019-11-28 本文已影响0人
sunsaint
数据分析的前提是数据的搜集与加工处理
1.1 数据分组与变量数列
1.1.1 数据分组
数据分组 就是对某一变量不同取值,按照其自身变动特点和研究需要划分成不同的组别,以便更好地研究该变量分布特征及变动规律
变量
类型
- 离散变量:指变量值可以按一定顺序一一列举,通常以整数位取值的变量
- 连续变量:在一定区间内可以任意取值的变量叫连续变量, 其数值是连续不断的, 相邻两个数值可作无限分割,即可取无限个数值。
分组
- 单项分组
若变量是离散型变量,且取值只有不多的几个
做法:将变量的不同取值作为一组的组别,变量有多少个不同取值就划分多少组 - 组距分组
若变量是连续型变量, 或者是取值较多的离散型变量
做法:将变量的全部取值按照其大小顺序划分成若干个不同的数值区间
1.1.2 变量数列
变量数列是指在对变量取值进行分组的基础上,将各组不同的变量值与其变量值出现的次数排列成的数列
由于对变量分组有单项分组和组距分组两种不同的方法,因而分组后形成的变量数列也有单项数列和组距数列两种
两个要素
- 由不同变量所划分的组,称为组别
- 各组变量值出现的次数,亦称频数
各组次数与总次数之比叫比率,又称频率
在变量数列中,由不同变量取值组成的组别表示变量的变动幅度,而频数和频率则表示相对应的变量值对其平均水平的作用程度。频数(频率)愈大的组所对应的变量值对其平均水平的作用也愈大 ;反之, 频数(频率)愈小的组所对应的变量值对其平均水平的作用也愈小。因此,在变量数列的条件下,当对变量值求算术平均数时,频数和频率均作为权数,频数看做为绝对权数,用f表示 ;频率看做为相对权数,用
1.2 分布中心的测度
1.3 离散程度的测度
1.4 偏度与峰度
1.5 两个变量的相关关系
字符ddd
(简短文字添加代码框)
Tab dddd
或四个空格(大段文字添加代码框,每行前添加)
@requires_authorization
def somefunc(param1='', param2=0):
'''A docstring'''
if param1 > param2: # interesting
print 'Greater'
return (param2 - param1 + 1) or None
class SomeClass:
pass
>>> message = '''interpreter
... prompt'''
left | center | right |
---|---|---|
aaaa | bbbbbb | ccccc |
a | b | c |
内部嵌套
内部嵌套2
标题1
科学公式 TeX(KaTeX)
ddd
- Item 1
- Item 2
- Item 1
- Item 1
- Item 1
- 嵌套列表1
- 嵌套列表1a
- 嵌套列表1b
- 嵌套列表1ai
- 嵌套列表1aix
- 嵌套列表2