非常に大きなCSVファイルをPandasで使い始め、最終的にはXGBoostで機械学習ができるようになりました。大きな(+15gb)CSVデータセットとPandas/XGBoostを使って作業する
私のデータのチャンクを管理するために、mySQLまたはいくつかのsqlliteフレームワークを使用することに間違いがあります。私の問題は、後でマシンの学習面で、そしてモデルを訓練するために一度にチャンクで読み込むことです。
私の他の考えは、パンダをオフにして構築されたDask
を使うことでしたが、XGBoost機能も持っていました。
私は最良の出発点が何であるか分かりませんし、意見を求めることを望んでいました!私はDask
に向かっていますが、私はまだそれを使用していません。
15GBは何もありません。 sqliteをスピンアップすると設定されます。 – drum
それは多かれ少なかれ4 x 15 - 18 GBです。しかし、おかげさまで、私はまだ大きなデータについてはあまり知らないのです。 – Kam
興味深いかもしれないxgboostとcsvデータを含むdaskの例:http://matthewrocklin.com/blog/work/2017/03/28/dask-xgboost – mdurant