机器学习(十一):时间序列AIRMA模型及案例分析

2019-12-31  本文已影响0人  风之舟

一、简介

ARIMA模型(Autoregressive Integrated Moving Average model),差分整合移动平均自回归模型,又称整合移动平均自回归模型,时间序列预测分析方法之一。ARIMA(p,d,q)中,AR是"自回归",p为自回归项数;MA为"滑动平均",q为滑动平均项数,d为使之成为平稳序列所做的差分次数(阶数)。"差分"一词虽未出现在ARIMA的英文名称中,却是关键步骤。

平稳性:

严平稳与弱平稳:

差分法:

二、ARIMA模型原理

1、AR模型

自回归模型(AR):

自回归模型的限制:

2、MA模型

移动平均模型(MA):

3、ARMA模型

自回归移动平均模型(ARMA)

4、ARIMA模型

ARIMA(p,d,q)模型全称为差分自回归移动平均模型

5、相关函数评估(选择p,q值)方法

1、自相关函数ACF公式:

2、偏自相关函数(PACF)(partial autocorrelation function)

3、ARIMA(p,d,q)阶数确定:

模型 ACF PACF
AR(p) 衰减趋于零(几何型或振荡型) p阶后截尾
MA(q) q阶后截尾 衰减趋于零(几何型或振荡型)
ARMA(p,q) q阶后衰减趋于零(几何型或振荡型) p阶后衰减趋于零(几何型或振荡型)

截尾:落在置信区间内(95%的点都符合该规则)
4、ARIMA(p,d,q)阶数确定
通过上图可知:

5、利用AIC和BIC准则:选择参数p、q

6、模型残差检验

6、ARIMA建模流程

1、将序列平稳(差分法确定d)
2、p和q阶数确定:ACF与PACF
3、ARIMA(p,d,q)

三、案例分析

该案例分析用到的数据集是股票数据,有需要的同学可以私信我。

1、数据

%matplotlib inline
import pandas as pd
import datetime
import matplotlib.pylab as plt
import seaborn as sns
from matplotlib.pylab import style
from statsmodels.tsa.arima_model import ARIMA
from statsmodels.graphics.tsaplots import plot_acf,plot_pacf

style.use('ggplot')
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus']=False
stock = pd.read_csv('../数据集/时间序列/T10yr.csv',index_col=0,parse_dates=[0])#ARIMA模型指定时间为索引
stock.tail(10)

2、对数据进行重采样

这里我们以数据的关盘价为目标,按每周周一为起始去平均值

stock_week = stock['Close'].resample('W-MON').mean()#进行重采样,以关盘价为分析数据,按每周周一起始取平均
stock_week.head(10)

3、画图展示数据

我们取2000-2015年之间的数据为我们的训练集

stock_train = stock_week['2000':'2015']
stock_train.plot(figsize=(12,8))
plt.legend(bbox_to_anchor=(1.25,0.5))
plt.title('Stock Close')
sns.despine()

4、计算一阶差分

画图展示一下一阶差分的数据,看一下是否取一阶差分

#计算一阶差分
stock_diff = stock_train.diff()
stock_diff = stock_diff.dropna()

plt.figure(figsize=(10,8))
plt.plot(stock_diff)
plt.title('一阶差分')
plt.show()

通过上图观察发现,一阶差分后的走势已经变得相对平稳,我们可以直接去一阶差分就可以了。所以d=1

5、计算ACF、PACF确定p、q

ACF确定q

acf = plot_acf(stock_diff,lags=20)
plt.title("ACF")
acf.show()

通过ACF图,可以看出,从1之后就进入了置信区间,所以q=1
PACF确定p
pacf = plot_pacf(stock_diff,lags=20)
plt.title("PACF")
pacf.show()

通过PACF图可以大体看出1之后也进入了置信区间,所以这里p=1.
这里有一个函数可以调用,只需要数据传入即可,
#在下图分别绘制原始数据的残差图、直方图、ACF图和PACF图
def tsplot(y,lags=None,title='',figsize=(14,8)):
    fig = plt.figure(figsize=figsize)
    layout = (2,2)
    ts_ax = plt.subplot2grid(layout,(0,0))
    hist_ax = plt.subplot2grid(layout,(0,1))
    acf_ax= plt.subplot2grid(layout,(1,0))
    pacf_ax = plt.subplot2grid(layout,(1,1))
    
    y.plot(ax=ts_ax)
    ts_ax.set_title(title)
    y.plot(ax=hist_ax,kind='hist',bins=25)
    hist_ax.set_title('Histogram')
    smt.graphics.plot_acf(y,lags=lags,ax=acf_ax)
    smt.graphics.plot_pacf(y,lags=lags,ax=pacf_ax)
    [ax.set_xlim(0) for ax in [acf_ax,pacf_ax]]
    sns.despine()
    plt.tight_layout()
    return ts_ax,acf_ax,pacf_ax

tsplot(stock_diff,title='stock')

确定好p、d、q之后我们就可以用ARIMA模型进行预测了。

6、ARIMA模型预测

model = ARIMA(stock_train,order=(1,1,1),freq='W-MON')
result = model.fit()
pred = result.predict('20140609','20160201',dynamic=True,typ='levels')#开始时间必须包含在训练集内,预测的时间主要要看一下是否是预测时间点,因为这里我们取得是每周一,所以要注意预测的结束时间必须是每周一
print(pred)

我们这里画图展示一下,

plt.figure(figsize=(10,10))
plt.xticks(rotation=45)
plt.plot(pred)
plt.plot(stock_train)

红色的线是我们预测的时间段,与真实值比较发现,真实值偏低一点,预测值与真实值相比有差异,这也说明股市的凶险,很难能够预测准确。

时间序列ARIMA模型到这里就结束了,有不明白的同学可以在留言私信。

上一篇 下一篇

猜你喜欢

热点阅读