[66k、56k]サイズ(行、列)のcsvファイルがあります。その疎な行列。私はnumpyがそのサイズの行列を扱うことができることを知っています。私は皆さんの経験に基づいて、scikit-learnアルゴリズムがどれくらい多くの機能を快適に扱うことができるのかを知りたいですか?scikit-learnで扱える機能の数はいくつですか?
5
A
答えて
12
見積もりによります。そのサイズでは、線形モデルはまだ十分に機能しますが、SVMはおそらく永遠に訓練することになります(疎な行列を処理しないため、ランダムなフォレストは忘れてしまいます)。
LinearSVC
、LogisticRegression
、およびSGDClassifier
は、約300k×3.3百万のサイズのスパース行列を問題なく使用しました。 @ amuellerのscikit-learn cheat sheetで、すぐに仕事の見積もりを選ぶことができます。
完全開示:私はscikit-learnコア開発者です。
1
モデルを頻繁に訓練する必要がある場合は、リニアモデル(回帰、SGD、ベイズ)がおそらく最も良い賭けになるでしょう。
あなたが任意のモデルを実行するに行く前に、次の
1)の機能低下を試すこともできますが。データに簡単に削除できる機能はありますか?たとえば、データがテキストまたは評価である場合、利用可能な既知のオプションが多数あります。
2)学習曲線分析。おそらく、モデルをトレーニングするためにデータの小さなサブセットだけが必要な場合があります。その後は、データにフィットするか、精度の向上がわずかです。
どちらのアプローチでも、必要なトレーニングデータを大幅に削減できます。
関連する問題
- 1. CPU/OSで扱えるスレッドの数はいくつですか?
- 2. phpmyadminで扱えるカラム数はいくつですか?
- 3. junit perameterizedテストで扱える最大パラメータ数はいくつですか?
- 4. 角度をいくつかのルートとmvcを扱えるようにすることは可能ですか?
- 5. いくつかの変数でSwitch文が機能しない
- 6. Frama-C WPプラグインが扱える一時変数の数はいくつですか?
- 7. いくつかの機能を備えたPython Keylogger
- 8. PHPで扱える最大の数字は何ですか?
- 9. キャッチされない例外TypeError:(//いくつかの機能)でない機能
- 10. memcpy/memsetなどで扱えるバッファの最大サイズはいくらですか?
- 11. エスケープは、PHPは、私はエコー機能で「エスケープいくつかの奇妙な問題を抱えている
- 12. 私はいくつかのオプションを取るスタンドアロン機能を持つ関数
- 13. Chromeの拡張機能で、いくつかのJS変数の値を示す
- 14. 機能の1つのインスタンスを置き換えるフィルターではなく、他の
- 15. React - レンダリング機能でいくつかのコンポーネントの1つを返す方法は?
- 16. バッシュ機能 - いくつかの理由
- 17. Apache Stormはどのくらいの数のボルトを扱えますか?続き
- 18. npmでいくつかの機能を無効にすることは可能ですか?
- 19. パンダ:GROUPBY機能内のいくつかの基準のパリで
- 20. スタックポインタはいくつかのプロセスでどのように機能しますか?
- 21. 意思決定ツリーで複数のカテゴリカル機能を扱うにはどうすればよいですか?
- 22. jQueryの:どのような機能が、ここで与えられるべきである[変更または他のいくつかの機能]
- 23. 分類モデルの新機能の扱い
- 24. いくつかのスレッドで1つの機能を動作させることはできますか?
- 25. ジェネリックは複数のデータベースを扱う答えですか?
- 26. SQL Report Builderでいくつかの機能を制限できますか?
- 27. Noob JS複数の機能を備えたドロップダウンについて
- 28. Javascriptで1つの文字エンコーディングから別のエンコーディングに変換する機能を教えてください。
- 29. いくつかの異なる機能を使用する
- 30. ContentProviderの数はいくつですか?
私が取り組んでいる仕事は回帰です。しかし、Sklearnがどのように高次元データを一般的に扱うかを知ることは有益です。 – viper