答えははいです。
最初の手順はデータをいくつか持たせることです。あなたは応答(無料の自転車)とそれが変化するいくつかの機能(時間、場所)を持っています。因子に対する平均値によって基本的な条件付き平均モデルをすでに適用しています。 休日やローカルイベントフラグなどのカレンダーイベントを使用して、場所について知っているデータを増やすことができます。
観測ごとに1行のデータセットを準備し、Mean Absolute Percentage Error(MAPE)などの指標で、ある期間の現在の予測プロセスの精度をベンチマークします。検証期間の予測(平均)に検証期間内のデータが含まれていないことを確認してください。 この期間のデータを使用して、他のモデルを検証します。
残りのデータの一部をテストセットに分割し、残りをトレーニングに使用します。大量のデータがある場合、一般的なトレーニング/テストの分割は70/30です。データが小さい場合、90/10に下がる可能性があります。
トレーニングセットで1つ以上の機械学習モデルを学習し、テストセットで定期的にパフォーマンスをチェックして、一般化のパフォーマンスがまだ向上していることを確認してください。多くのトレーニングアルゴリズムの実装はこれを管理し、オーバーフィットによってテストのパフォーマンスが低下し始めると自動的に停止します。これは、あなたの現在のまっすぐな平均以上の機械学習の大きな利点、何が一般化して何を捨てるのかを学ぶ能力です。
検証セットを予測し、MAPEを計算し、モデルのMAPEを元のプロセスのMAPEと同じ期間に比較することによって、各モデルを検証します。幸運にも、機械学習を知ることを楽しみにしています!