python：sklearnを使用した文書クラスタリングでメモリに問題がある

私は文書クラスタリングのためにsklearnのTfIdfVectorizerを使用しています。私は2,000万のテキストを持っています。それはクラスタを計算したいのです。しかし、TfIdf行列の計算には時間がかかり、システムが停止しています。python：sklearnを使用した文書クラスタリングでメモリに問題がある

この問題を解決する方法はありますか？どのようなPythonモジュールでもこれに代わる方法がありますか？

出典

2016-11-03 Bhimasen

まあ、2000万テキストのコーパスが非常に大きいあり、かつ細心かつ包括的な前にもいくつかの良いコンピューティングインスタンス（つまりメモリと良いCPUのロット）せずに、TF-IDFの計算がかかる場合があります多くの時間。

あなたがを行うことができますどのような

：

（のは200.000テキストを言わせて）数千のサンプルの数百にあなたのテキストコーパスを制限します。あまりにも多くのテキストを持つと、はるかに小さい（しかし合理的な）データセットよりも分散が増えることはありません。

お試しください。前処理できるだけ多くのテキストをお送りください。基本的なアプローチは、あなたのテキストをトークン化し、ストップワードを使用し、単語をステミングし、慎重にn_gramsを使用することです。これらの手順をすべて完了したら、ボキャブラリのサイズをどれだけ減らしたかを確認してください。元のものよりはるかに小さくする必要があります。

あまりにも大きくない（あなたのデータセットについて話す）なら、これらの手順はTF-IDFをもっと速く計算するのに役立ちます。

出典

2016-11-03 10:38:00 MMF

開始小。

最初のクラスタはわずか100.00ドキュメントです。それが一度しか動作しない場合（おそらくそうでないため）、次にスケールアップすることを考えてください。サブセットのクラスタリングに成功しないと（通常はテキストクラスタがかなり悪い）、大きなセットではうまくいきません。

出典

2016-11-03 21:48:15

python：sklearnを使用した文書クラスタリングでメモリに問題がある

答えて

関連する問題