2017-09-24 5 views
-1

私は自分の街が持っている自転車レンタルサービスのデータをMySQLデータベースに記録する個人プロジェクトに取り組んでいます。スクリプトは30分ごとに実行され、各自転車ステーションと無料の自転車のデータを記録します。次に、私のデータベースでは、その時点での各日の各ステーションの可用性を平均して、現在のように2か月間のデータロギングを伴う予測としています。機械学習をプロジェクトに適用できるかどうかを確認するには?

機械学習で少し読んだことがありますが、少し勉強したいと思います。私のデータでモデルを訓練し、将来的にMLを使ってより良い予測をすることは可能でしょうか?

答えて

1

答えははいです。

最初の手順はデータをいくつか持たせることです。あなたは応答(無料の自転車)とそれが変化するいくつかの機能(時間、場所)を持っています。因子に対する平均値によって基本的な条件付き平均モデルをすでに適用しています。 休日やローカルイベントフラグなどのカレンダーイベントを使用して、場所について知っているデータを増やすことができます。

観測ごとに1行のデータセットを準備し、Mean Absolute Percentage Error(MAPE)などの指標で、ある期間の現在の予測プロセスの精度をベンチマークします。検証期間の予測(平均)に検証期間内のデータが含まれていないことを確認してください。 この期間のデータを使用して、他のモデルを検証します。

残りのデータの一部をテストセットに分割し、残りをトレーニングに使用します。大量のデータがある場合、一般的なトレーニング/テストの分割は70/30です。データが小さい場合、90/10に下がる可能性があります。

トレーニングセットで1つ以上の機械学習モデルを学習し、テストセットで定期的にパフォーマンスをチェックして、一般化のパフォーマンスがまだ向上していることを確認してください。多くのトレーニングアルゴリズムの実装はこれを管理し、オーバーフィットによってテストのパフォーマンスが低下し始めると自動的に停止します。これは、あなたの現在のまっすぐな平均以上の機械学習の大きな利点、何が一般化して何を捨てるのかを学ぶ能力です。

検証セットを予測し、MAPEを計算し、モデルのMAPEを元のプロセスのMAPEと同じ期間に比較することによって、各モデルを検証します。幸運にも、機械学習を知ることを楽しみにしています!

関連する問題