机器学习

时序分析平稳性分析

2020-08-24  本文已影响0人  zidea
machine_learning.jpg

时间序列分析

时间序列分析分为平稳时间序列分析和随机过程

时间序列的定义

按时间排序的一组随机数变量,可以用数学语言表示如下
\{x_1,x_2,\dots x_t \dots \}
X_1,X_2, \dots X_t

上面小写 x 表示在从下面大 X 总体得到的观察值,这里 t 表示某一个时刻,每一时刻 t 都是对应一个随机变量,而小写 x 是随机样本在 t 时刻观察值。

在统计学中,通常用大写字母表示样本总体,而用小写的 x 表示样本的个体。

虽然我们可以机器学习方法或者深度学习方法来解决时间序列的问题,但是实际应用中,时间序列问题应该更偏重于数理统计的范畴。所以利用统计学中针对不同时间序列二设计模型解决时间序列问题,可以更有效地解决时间序列问题。

在时间序列中,每一个时刻值 t 都是一个随机变量,因为是随机变量,那么就有概率密度函数表示如下,每一个x_i 都服从一个概率密度函数。
x_i \thicksim p(x_i) \, F(x_i)

对于没有学习过概率和统计的朋友,这里理解上有些困难需要补充一下相应的知识。

\{F_{t_1,t_2,\cdots,t_m}(x_1,x_2,\cdots,x_m)\} \forall m \in (1,2,\cdots,m),\forall t_1,t_2,\cdots,t_m \in T

什么是统计学,这里我用简单语言描述一下,所谓统计就是用样本信息推断出总体信息。

下面介绍用于描述一个总体分布情况的特征统计量,这里说的很正是,但是理解上应该不难。

这些式子其实不难就是,可能大家看了难于理解部分在对密度函数就积分来表示均值和方差,我们通常样本是离散的,通过对样本求和除以样本数就可以近似得到总体均值,也就是总体数学期望,所谓期望就是均值。

还有自协方差,因为时间序列是随机变量组,所以这里自表示对来源同一个随机变量组两个随机变量间的协方差。

E(X_t - \mu_t)(X_s - \mu_s) = EX_tX_s - EX_s EX_t
这里EX_s就是 s 时刻随机变量的均值。

时间序列难点就是我们仅可以观察到某一个随机变量一个观察值,例如股票在某一天值,我们只能得到一个观察值,某地区年平均降雨量也只能得到一个观察值,这样同很难像以往我们通过大量样本来估计总体的方式来解决时间序列问题。

对于一个数字,均值就是他自己,方差为 0 而且问题如何求一个数的协方差。这也就是时间序列难点所在。

为了解决时间序列,我们引入平稳的概念,通过一种假设或者说限制来降低时间序列研究难度,这就是为什么我们要引入平稳概念到时间序列原因。

时间序列平稳性

时间序列分析理论中有两种平稳性定义

因为严平稳只是概念存在,实际研究价值不大,随意我们主要研究就是宽平稳。有关宽平稳定义在之前分享已经提及了,这里就不再赘述了,重点回顾一下什么是宽平稳以及他的特点,宽平稳定义不说了,大家觉得难应该是宽平稳的几个特性,也就是如何定义宽平稳。

EX_t = \mu, \mu 为常数, \forall t \in T
说明每一个随机变量的均值都是一个常数

EX_t^2 < \infty ,\forall t \in T

\gamma(t,s) = \gamma(k,k+s-t), \forall t,s,k 且 k+ s - t \in T
这表示在时间序列中两个随机变量的自协方差与跨度有关

这里我们想一想如何用一个随机变量和其自己做协方差相关系数,
\begin{bmatrix} x_1,x_2,\dots, x_t \end{bmatrix}

\begin{bmatrix} x_2,x_3,\dots, x_{t+1} \end{bmatrix}

随机性检验

我们这里所说随机性检验是建立在平稳序列基础之上,只有满足了平稳性

平稳的时间序列

所谓平稳性时间序列,虽然每一 t 时刻随机变量都是独立,但是他们具有相似性,都服从相似的分布,所以才能够研究时间序列。

这里我们想一想如何计算相邻两个随机变量间自协方差,和其自己做协方差相关系数,原来对于 x 在 1 时刻只有一个观测值,因为在不同时刻 X 分布近似,我们通过借用其他时刻的随机变量观测值来组成一个向量表示随机样本。借用其他时刻前提就是需要我们时间序列平稳,这也就是我们为什么要研究平稳性的原因。
\begin{bmatrix} x_1,x_2,\dots, x_t \end{bmatrix}
通过上面方法我们还可以得到另一个 2 时刻 X 随机样本。
\begin{bmatrix} x_2,x_3,\dots, x_{t+1} \end{bmatrix}

因为是平稳序列,我们之前已经知道平稳序列的一个特点也就是跨度相同时间序列随机变量间的自相关系数相同。在平稳时间序列中,时间距离比较近随机变量间的自相关系数要大于距离较远随机变量间的相关系数。

平稳时间序列的统计性质

平稳时间序列的重大意义

检验时间序列的平稳性

上面我们说了通过假定为平稳的时间序列更加便于研究,那么如何判断一个时间序列是平稳的时间序列呢,这就是接下来我们要讨论的内容。

随机性检验

我们这里所说随机性检验是建立在平稳序列基础之上,只有满足了平稳性。如果是随机就说明随机变量间没有信息的传递。如果序列是随机,那么随机变量就没有可以分析价值,但是并不是说我们就没有办法了,这里还有一本书随机过程来处理随机序列。这是一门研究生课程用于专门研究随机过程。随机时间序列也是可以看作白噪声,接下来我们数学方式描述一下
EX_t = \mu , \forall t \in T
\gamma(t,s) = \begin{cases} \sigma^2 \, t = s \\ 0 \, t \neq s \forall t,s \in T \end{cases}
从上面来看自相关系数为 0 表示没有每一两个随机变量间都是没有关系的,也就是信息向下传递。图像处理,研究一些波或者信号处理都用到白噪声。
检验白噪声就是检验序列是否为平稳的,只有平稳时间序列才能算上平稳时间序列。

\gamma(k) = 0 \, \forall k \neq 0

上一篇 下一篇

猜你喜欢

热点阅读