2017-01-27 9 views
1

私はpythonで接続する健康患者データのリアルタイムデータフィードを持っています。このデータフィードでSklearnアルゴリズムを実行して、誰かが病気になるかどうかをリアルタイムで予測できるようにしたいと考えています。リアルタイムデータをsklearnに接続する標準的な方法はありますか?私は伝統的に静的なデータセットを持っていて、入ってくるストリームがないので、これは私には全く新しいものです。誰かがいくつかの一般的なルール/プロセス/ツールを使用していればそれはすばらしいだろう。sklearnを使用したリアルタイムデータ

+0

健康患者データベースのフィードをマシンに接続し、特定の時間間隔でデータをストリーミングするためにジェネレータを使用することができます。 – blacksite

+0

@not_a_robot私はそれらを調べていただきありがとうございます。 –

+2

関連する:[計算のスケールをとる戦略:より大きなデータ](http://scikit-learn.org/stable/modules/scaling_strategies.html)。 – blacksite

答えて

1

ほとんどのアルゴリズムでは、トレーニングが遅く、予測が高速です。したがって、訓練データを使用してオフラインでトレーニングする方が良いです。訓練されたモデルを使用して、新しいケースをそれぞれリアルタイムで予測します。

明らかに、より多くの/より良いデータを取得した場合は、後で再度トレーニングを行うことができます。しかし、すべての症例の後に再訓練することにはほとんど利益はない。

0

静的なデータセットからモデルを訓練し、そのモデルで着信データの分類を予測することは可能です。患者データの新しいセットごとにモデルをあまり再学習しないでください。また、MLモデルをテストする列車/テストモードを解除します。

訓練されたモデルをファイルに保存し、リアルタイム予測に使用するコードにインポートすることができます。

python scikitでは、これはpickleパッケージを介して行われます。 Rプログラミングはrdaオブジェクトに保存します。 saveRDS

yay ...私の最初のML質問に答える!

関連する問題