预测:方法与实践

本文最后更新于:2021年1月30日 晚上

预测:方法与实践

电子书

一、入门

1.主要内容和概念

  1. 事件(或数量)的可预测性取决于以下几个因素:
    1. 我们对它的影响因素的了解程度;
    2. 有多少数据是可用的;
    3. 预测是否会影响我们试图预测的事物。
  2. 预测:它是指在考虑到所有可用信息的前提下,包括历史数据和可以影响预测的任何未来事件的知识,尽可能准确地预言。
  3. 目标:它是指你想要发生的事情。目标理应与预测和计划联系在一起,但是这并不经常发生。很多时候,设定目标时没有任何如何去实现这些目标的计划,也没有目标是否切合实际的预测。
  4. 计划:它是对预测和目标的回应。计划包括制定使得你的预测符合你的目标的适当行动。
  5. 短期预测:人员、生产和运输的安排调度需要短期预测。作为安排过程中的一部分,需求预测常常也是必须的。
  6. 中期预测:确定未来的资源需求需要中期预测,以便购买原材料、雇用人员或购买机器和设备。
  7. 长期预测:在战略规划中会使用长期预测。此类决定必须将市场机会、环境因素和内部资源纳入考量。
  8. 在满足以下两个条件的时候可以使用定量预测
    1. 关于过去的数字化信息是可以用的;
    2. 有理由假设过去的一些模式会在未来延续下去。
  9. 预测过程的主要步骤**:**
    1. 步骤1:定义问题。
    2. 步骤2:收集信息**:一般至少需要两种信息收集方式:(a) 统计数据,(b) 收集数据和进行预测方面专家的积累经验。**
    3. 步骤3:初步(探索性)分析**:总是以图形开头。有一致的模式吗?有明显的长期趋势吗?季节性重要吗?是否有证据表明商业周期存在?数据中是否包含需要专业知识解释的异常值?用于分析的变量之间的相关性有多强?**
    4. 步骤4:**选择及拟合模型。
    5. 步骤5:使用及评估预测模型。
  10. 统计预测的观点:
    1. 我们试图预测的东西是未知的,此时可以看成一个随机变量
    2. 当某个数据是已知的时候,我们把它看成一个样本

2.练习

  1. 假设相关数据可以得到,列出1.5节案例3和案例4中可能有用的预测变量。

    答:

    1. 对于案例3:汽车类型、汽车品牌、汽车采购价格、汽车转售价格、汽车转售数量、对应的转售政策
    2. 对于案例4:乘客类型、学校假期时间、重大体育赛事时间、广告活动时间、竞争行为
  2. 描述1.5节案例3中项目预测的五个步骤。

    答:

    1. 定义问题
    2. 收集信息
    3. 初步(探索性)分析
    4. 选择及拟合模型
    5. 使用及评估预测模型

二、时间序列图形

1.主要内容

  1. 对于任何数据分析工作而言,其首要任务是数据可视化。图示化数据可以清晰地展现数据的特征,包括数据的形态、异常值、随时间变化情况以及变量间的相互关系。
  2. 时间序列是一组按照时间发生先后顺序进行排列,并且包含一些信息的数据点序列。
  3. 上述这些信息被存储在ts对象中
  4. 时间序列的频率:“频率”是季节模式重复之前的观测值个数。
  5. 时间图:对于时间序列数据而言,我们从最简单的时间图开始。时间图是用将观测值与观测时间点作图,散点之间用直线连接。
  6. 时间序列模式:我们通常使用例如“趋势”、“季节性”等词语描述时间序列。在深入研究时间序列模式时,应该更精确的定义这些词语。
    1. 趋势:当一个时间序列数据长期增长或者长期下降时,表示该序列有 趋势 。在某些场合,趋势代表着“转换方向”。
    2. 季节性:当时间序列中的数据受到季节性因素(例如一年的时间或者一周的时间)的影响时,表示该序列具有 季节性 。季节性总是一个已知并且固定的频率。
    3. 周期性:当时间序列数据存在不固定频率的上升和下降时,表示该序列有 周期性 。这些波动经常由经济活动引起,并且与“商业周期”有关。周期波动通常至少持续两年。
    4. 当数据的波动是无规律时,表示序列存在周期性;如果波动的频率不变并且与固定长度的时间段有关,表示序列存在季节性。一般而言,周期的长度较长,并且周期的波动幅度也更大。
  7. 季节图:季节图和时间序列图很相似,不同之处是季节图是针对观察数据的“季节性”绘制的。
  8. 子系列季节图:子系列季节图可以清晰的描绘出数据的潜在季节性形态,并且显示了季节性随时间的变化情况。这类图可以很好地查看各时期内数据的变化情况。是观察季节性变化最有用的方式。
  9. 散点图
  10. 相关性:我们经常会用 相关系数 衡量两个两个变量之间的相关强度。假如已知两个变量$x$和$y$,那么它们之间的相关系数为$r = \frac{\sum (x_t-\overline{x})(y_t-\overline{y})}{\sqrt{\sum{(x_t-\overline{x})^2}} \sqrt{\sum(y_t-\overline{y})^2}}$,$r$的值始终在-1到1之间。当两个变量完全负相关时,$r$值为-1;当两个变量完全正相关时,$r$为1。
    • 需要注意的是,相关系数仅仅衡量了变量之间的线性关系,并且有时会导致错误的结果。
    • 在分析变量之间关系时,不仅要看相关系数值,而且要关注生成的图形。
  11. 散点图矩阵
    • 当所分析的数据有多个变量时,将每个变量与其他变量进行比较也很有意义。
    • 对于图中的每一块区域,其行变量是垂直轴行的变量,列变量是水平轴的变量。有许多设置可以控制生成的图形的形态。在默认设置中,相关系数在图的右上方显示,散点图在左下方显示,对角线上是密度曲线。
    • 可以通过散点图矩阵快速查看所有变量之间的相关关系。
  12. 滞后图
  13. 自相关:正如相关系数可以衡量两个变量之间的线性相关关系一样,自相关系数可以测量时间序列 滞后值 之间的线性关系。
    • $r_k$定义如下:$r_k = \frac{\sum_{t=k+1}{T}(y_t-\overline{y})(y_{t-k}-\overline{y})}{\sum_{t=1}{T}(y_t-\overline{y})^2}$
    • 通过绘制自相关系数图可以描绘 自相关函数 或者是ACF。因此也被称为相关图。
  14. ACF 图中的趋势性和季节性:
    • 当数据具有趋势性时,短期滞后的自相关值较大,因为观测点附近的值波动不会很大。时间序列的ACF一般是正值,随着滞后阶数的增加而缓慢下降。
    • 当数据具有季节性时,自相关值在滞后阶数与季节周期相同时(或者在季节周期的倍数)较大。
    • 当数据同时具有趋势和季节性时,我们会观察到组合效应。
  15. 白噪声:“白噪声”是一个对所有时间其自相关系数为零的随机过程。
    • 对于白噪声而言,我们期望它的自相关值接近0。但是由于随机扰动的存在,自相关值并不会精确地等于0。对于一个长度为TT的白噪声序列而言,我们期望在0.95的置信度下,它的自相关值处于±2/√T±2/T之间。我们可以很容易的画出ACF的边界值。如果一个序列中有较多的自相关值处于边界之外,那么该序列很可能不是白噪声序列。

本博客所有文章除特别声明外,均采用 CC BY-SA 4.0 协议 ,转载请注明出处!