时间序列相关算法与分析步骤

算法

首先，从时间的角度可以把一个序列基本分为3类：

1.纯随机序列（白噪声序列），这时候可以停止分析，因为就像预测下一次硬币哪一面朝上一样毫无规律。

2.平稳非白噪声序列，它们的均值和方差是常数，对于这类序列，有成熟的模型来拟合这个序列在未来的发展状况，如AR，MA，ARMA等（具体模型算法及实现在后面）

3.非平稳序列，一般做法是把他们转化为平稳的序列，在按照平稳序列的算法进行拟合。如果经过差分后平稳，则应使用ARIMA模型进行拟合。

注：本文模型采用的数据为某餐厅一个多月内的销量数据，包含两个特征：时间和销量

Q1：序列的平稳性用什么来衡量呢？

方法1：

平稳的序列自相关图和偏自相关图不是拖尾就是截尾。

截尾就是在某阶之后，系数都为 0 。
拖尾就是有一个衰减的趋势，但是不都为 0 。

注：

如果自相关是拖尾，偏相关截尾，则用 AR 算法
如果自相关截尾，偏相关拖尾，则用 MA 算法
如果自相关和偏相关都是拖尾，则用 ARMA 算法， ARIMA 是 ARMA 算法的扩展版，用法类似。

相关系数的计算方法：

VAR表示方差

方法2：

根据单位根检验

如果存在单位根，则此序列为随机非平稳序列

Q2：平稳序列应该怎么分析呢？

目前最常用的拟合平稳序列的模型为ARMA（Autoregressive moving average）模型，全称是自回归移动平均模型，他又可以分为AR模型，MA模型和ARMA模型三大类。

1.自回归AR(p)模型

这里写图片描述
自回归模型描述的是当前值与历史值之间的关系。

2.移动平均MA(q)模型

这里写图片描述
移动平均模型描述的是自回归部分的误差累计。

3.ARMA(p,q)模型

ARMA(p,q)模型中包含了p个自回归项和q个移动平均项，ARMA(p,q)模型可以表示为：
这里写图片描述

当q=0时，是AR(p)模型
当p=0时，是MA(q)模型

一般分析步骤：
这里写图片描述

Q3：非平稳序列怎么分析呢？

从上面的模型中可以看出，如果是非平稳序列，我们需要先把它转为平稳序列之后再进行分析。

一般我们使用ARIMA(Autoregressive Integrated Moving Average model)进行分析

ARIMA（p，d，q）中，AR是”自回归”，p为自回归项数；MA为”滑动平均”，q为滑动平均项数，d为使之成为平稳序列所做的差分次数（阶数）。

“差分”一词虽未出现在ARIMA的英文名称中，却是关键步骤。

Q4：举个栗子看下呗！

读取数据

#-*- coding: utf-8 -*-
#arima时序模型

import pandas as pd

#参数初始化
discfile = '../data/arima_data.xls'
forecastnum = 5

#读取数据，指定日期列为指标，Pandas自动将“日期”列识别为Datetime格式
data = pd.read_excel(discfile, index_col = u'日期')

自相关检测


#时序图
import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif'] = ['SimHei'] #用来正常显示中文标签
plt.rcParams['axes.unicode_minus'] = False #用来正常显示负号
data.plot()
plt.show()

#自相关图
from statsmodels.graphics.tsaplots import plot_acf
plot_acf(data).show()

#平稳性检测
from statsmodels.tsa.stattools import adfuller as ADF
print(u'原始序列的ADF检验结果为：', ADF(data[u'销量']))
#返回值依次为adf、pvalue、usedlag、nobs、critical values、icbest、regresults、

ADF检测结果p值显著大于0.05（p=0.9983），最终判断为非平稳序列

一阶差分后继续检测

#差分后的结果
D_data = data.diff().dropna()
D_data.columns = [u'销量差分']
D_data.plot() #时序图
plt.show()
plot_acf(D_data).show() #自相关图
from statsmodels.graphics.tsaplots import plot_pacf
plot_pacf(D_data).show() #偏自相关图
print(u'差分序列的ADF检验结果为：', ADF(D_data[u'销量差分'])) #平稳性检测

#白噪声检验
from statsmodels.stats.diagnostic import acorr_ljungbox
print(u'差分序列的白噪声检验结果为：', acorr_ljungbox(D_data, lags=1)) #返回统计量和p值

这里写图片描述
上图是差分后的销量结果

这里写图片描述
自相关图显示出1阶截尾的性质

偏自相关图显示出1阶拖尾的性质

从ADF的结果（p=0.0226）和自相关图以及偏自相关图中可以看出一阶差分后的序列是平稳的非白噪声序列。

给ARIMA模型定阶
从一阶差分后的序列是平稳的非白噪声序列可以看出ARIMA模型中的d=1

定阶方法：
1.人为判断：自相关图显示出从第1阶之后的截尾性质，偏自相关图从第1阶之后显示出拖尾的性质，所以人为判断使用MA(1)模型，即ARMA(0,1,1)
2.相对最优模型识别，当p和q均小于等于3的所有组合的BIC信息量，取其中BIC信息量达到最小的模型阶数。

#定阶
pmax = int(len(D_data)/10) #一般阶数不超过length/10
qmax = int(len(D_data)/10) #一般阶数不超过length/10
bic_matrix = [] #bic矩阵
for p in range(pmax+1):
  tmp = []
  for q in range(qmax+1):
    try: #存在部分报错，所以用try来跳过报错。
      tmp.append(ARIMA(data, (p,1,q)).fit().bic)
    except:
      tmp.append(None)
  bic_matrix.append(tmp)

bic_matrix = pd.DataFrame(bic_matrix) #从中可以找出最小值

p,q = bic_matrix.stack().idxmin() #先用stack展平，然后用idxmin找出最小值位置。
print(u'BIC最小的p值和q值为：%

BIC矩阵
取其中BIC信息量达到最小的模型阶数。
这里写图片描述
确定p=0，q=1

拟合模型

model = ARIMA(data, (p,1,q)).fit() #建立ARIMA(0, 1, 1)模型
model.summary2() #给出一份模型报告
model.forecast(5) #作为期5天的预测，返回预测结果、标准误差、置信区间。

最终得到模型的预测结果

数据和完整代码可以通过在留言中留下邮箱获取哦~

版权声明：本文来源CSDN，感谢博主原创文章，遵循 CC 4.0 by-sa 版权协议，转载请附上原文出处链接和本声明。
原文链接：https://blog.csdn.net/omnispace/article/details/79831062
站方申明：本站部分内容来自社区用户分享，若涉及侵权，请联系站方删除。

发表于 2020-03-07 21:19:20

阅读 ( 1296 )

分类：算法

你可能感兴趣的文章

算法笔记（一）排序之桶排序和插入排序 1045 浏览
[算法笔记]的笔记 4.1.1 选择排序 4.1.2 插入排序 944 浏览
算法笔记04-排序 878 浏览
算法笔记1-排序 1097 浏览
算法学习笔记--插入排序 1006 浏览
算法学习笔记----插入排序 1220 浏览
Linux C学习笔记-排序算法1-插入排序 1491 浏览
视觉多目标跟踪算法综述(上) 1806 浏览
深度多目标跟踪算法综述 1287 浏览

精选的优质文章

也许 Go 开发可以更简单！ 10522 浏览
如何使用 Golang 日志监控你的应用程序？ 12003 浏览
从Go语言实现模板设计模式浅谈Go的抽象能力 14046 浏览
阿里云基于 Go 的微服务架构分享 23919 浏览
java是否会被取代？Go会否给Java带来冲击？ 28446 浏览
千万级规模高性能、高并发的网络架构经验分享 29985 浏览
阿里部分面试题汇总,对想进阿里的同学非常实用 62289 浏览
实用好文：知乎实时数仓架构实践及演进 31314 浏览
支撑马蜂窝「双11」营销大战背后的技术架构 228274 浏览
想进大厂？50个多线程面试题，你会多少？（一） 23046 浏览

0 条评论

请先登录后评论