第一章数据分析的基础

2019-11-28 本文已影响0人 sunsaint

数据分析的前提是数据的搜集与加工处理

1.1 数据分组与变量数列

1.1.1 数据分组

数据分组就是对某一变量不同取值，按照其自身变动特点和研究需要划分成不同的组别，以便更好地研究该变量分布特征及变动规律

变量

类型

离散变量：指变量值可以按一定顺序一一列举，通常以整数位取值的变量
连续变量：在一定区间内可以任意取值的变量叫连续变量, 其数值是连续不断的, 相邻两个数值可作无限分割,即可取无限个数值。

分组

单项分组
若变量是离散型变量，且取值只有不多的几个
做法：将变量的不同取值作为一组的组别，变量有多少个不同取值就划分多少组
组距分组
若变量是连续型变量，或者是取值较多的离散型变量
做法：将变量的全部取值按照其大小顺序划分成若干个不同的数值区间

1.1.2 变量数列

变量数列是指在对变量取值进行分组的基础上，将各组不同的变量值与其变量值出现的次数排列成的数列
由于对变量分组有单项分组和组距分组两种不同的方法，因而分组后形成的变量数列也有单项数列和组距数列两种

两个要素

由不同变量所划分的组，称为组别
各组变量值出现的次数，亦称频数

各组次数与总次数之比叫比率，又称频率

在变量数列中，由不同变量取值组成的组别表示变量的变动幅度，而频数和频率则表示相对应的变量值对其平均水平的作用程度。频数(频率)愈大的组所对应的变量值对其平均水平的作用也愈大 ;反之，频数(频率)愈小的组所对应的变量值对其平均水平的作用也愈小。因此，在变量数列的条件下，当对变量值求算术平均数时，频数和频率均作为权数，频数看做为绝对权数，用f表示 ;频率看做为相对权数，用 $\frac{f}{\sum f}$

1.2 分布中心的测度

1.3 离散程度的测度

1.4 偏度与峰度

1.5 两个变量的相关关系

字符ddd（简短文字添加代码框）
Tab dddd或四个空格（大段文字添加代码框，每行前添加）

@requires_authorization
def somefunc(param1='', param2=0):
    '''A docstring'''
    if param1 > param2: # interesting
        print 'Greater'
    return (param2 - param1 + 1) or None
class SomeClass:
    pass
>>> message = '''interpreter
... prompt'''

left	center	right
aaaa	bbbbbb	ccccc
a	b	c

内部嵌套

内部嵌套2

标题1

科学公式 TeX(KaTeX)
ddd

Item 1
Item 2

Item 1
Item 1
Item 1

嵌套列表1
- 嵌套列表1a
- 嵌套列表1b
- 嵌套列表1ai
  - 嵌套列表1aix
嵌套列表2

第一章数据分析的基础

1.1 数据分组与变量数列

1.1.1 数据分组

变量

类型

分组

1.1.2 变量数列

两个要素

1.2 分布中心的测度

1.3 离散程度的测度

1.4 偏度与峰度

1.5 两个变量的相关关系

标题1

猜你喜欢

热点阅读

第一章 数据分析的基础

1.1 数据分组与变量数列

1.1.1 数据分组

变量

类型

分组

1.1.2 变量数列

两个要素

1.2 分布中心的测度

1.3 离散程度的测度

1.4 偏度与峰度

1.5 两个变量的相关关系

标题1

猜你喜欢

热点阅读

第一章数据分析的基础