2017-07-03 18 views
0

データをトレーニングとテストに分けることで、モデルが見えないデータでどの程度うまく動作するかを評価する方法があることを理解しています。時系列Python ARIMA(過去のデータをテスト、トレーニング、予測すること)

私はARIMAモデルをトレーニングしており、10月1日から11月22日までの毎日のデータがあります。私は12月14日にいくつかのメトリックを予測することに興味があります。すべての入手可能なデータに私は

  1. 電車行い、パフォーマンスメトリックを取得し、使用することを予測する(「2015年11月23日」、「2015年12月14日」)または電車やテストに
  2. 分割データを使用トレーニングセット(10月1日から11月7日)で訓練されたモデルであり、テストデータも将来の予定も含めて予測します。予測( '2015-11-8'、'2015-12-14 ')。

私の質問が意味をなさないことを願っています。これが混乱しているとわかったら幸いです。

ありがとうございます!

答えて

0

トレーニング用にすべてのデータを使用する場合、データを見えないように一般化をモデル化する方法を予測する方法はありません。これは、テストセットを使用しないという1つの問題です。

その他の問題は、クロスバリデーションのやり方を決めるまで、別の設定やモデルのハイパーパラメータを試すことができないことです。

データ系列の予測は、クロスバリデーションでは特に難しいですが、フォワードチェインディングについてはthis post'sの推奨に従います。

  • 倍1:トレーニング[W1]、テスト[W2]
  • 倍2:トレーニング[w1 w2]の、テスト[を使用すると、データの6週間を持っている場合は、次のように折り目にデータを分割することができW3]
  • 倍3:トレーニング[W1 W2 W3]、試験[W4]
  • 倍4:トレーニング[W1 W2 W3 W4]、試験[W5]
  • 倍5:トレーニング[W1、W2、W3、W4、W5 ]、テスト[w6]
関連する問題