モデルパラメータの選択では、交差検証を使用してグリッド探索を行い、どのパラメータが他のパラメータより優れているかをテストします。時系列データのモデルパラメータ選択
this oneのような一般的なトレーニングデータには適していますが、データが相互に時間的関係を持っていたり、数日以上の在庫を売っているような場合は、クロスバリデーションを直接行うのは間違っていますか?
クロス検証では、訓練データでランダムに分割されたkFoldが使用されます。これは時系列データを意味し、最近の曜日情報は昔の訓練に使用されます。
私の質問は、パラメータ選択や時系列データのクロスバリデーションを行う方法ですか?
ありがとう:)私は2番目と3番目の段落について疑問に思っています:時々、テスト情報の後ろに日付から来るかもしれない訓練データがあるかもしれませんが、時々私たちは日付情報を無視して、どのようなシナリオで私はこれを行うことができ、まだCV結果を信じていますか? – linpingta
すべての観測値が完全に独立しているときはいつでも、これを行うのが安全だと思います(しかし、時系列データではなく、日付属性を持つデータだけです)。現在の観測値が以前のデータに関係していたり影響を受けたりしている場合は、そのデータを無視すると漏れが発生します。 –