私は巨大なデータセット(〜2000万レコードと10個の列)でPythonを使用した探索的なデータ分析に取り組んでいます。私はセグメント化し、データを集約し、いくつかの視覚化を作成するだろう、私はそのデータセットを使用していくつかの決定木線の回帰モデルを作成するかもしれない。Py-tablesとBlazeとS-Frameの比較
大量のデータセットがあるため、コアデータを格納できないデータフレームを使用する必要があります。私はPythonには比較的新しく、大きなデータセットで作業しているので、自分のデータセットにsklearnを簡単に使用できる方法を使いたいと思っています。私はPy-tables、Blaze、またはS-Frameを使って天気を混同しています。誰かが私の賛否両論を理解するのを助けることができたら。このような意思決定において重要な要素は何か、それは非常に高く評価されます。
私はそれについて考えていませんでした。これは私のリストに別のオプションを追加します。あなたは、これらのオプションのそれぞれについて、賛否両論を少し詳しく説明できますか? – user3510503
は、実行する操作の種類によって異なります。データ処理がifである場合、上記のメソッドが機能します。しかし、あなたが言及したライブラリを探索する時間があれば(リストにPySparkを追加したい)。 ボトルネックがsklearnメソッドをデータに適用している場合、sklearnは 'partial_fit'をサポートしています。これは、一度にモデルの1つのチャンクをトレーニングします。これについての良いブログ記事[here](https://adventuresindatascience.wordpress.com/2014/12/30/minibatch-learning-for-large-scale-data-using-scikit-learn/) – lorenzori
ありがとうございます@ user3744868 。これは参考になります。 – user3510503