2012-04-24 10 views
2

30.000テキストのデータセットでKernelPCAを実行しようとすると、メモリエラーが発生します。ランダム化されたPCAは問題なく動作します。私はRandomizedPCAがまばらな配列で動作し、KernelPCAがそうでないことが起こっていると思います。python、scikits-learn:どの学習方法がスパースな特徴ベクトルをサポートしていますか?

現在、scikits-learnでスパース配列のサポートを実装している学習方法のリストはありますか?

答えて

1

まだありません。今は個々のクラスのドキュメンテーションを読まなければなりません。

とにかく、非線形モデルは、テキスト文書などの高濃度の疎なデータに対して線形モデルよりもうまく動作しない傾向があります(より簡単にオーバーフィットする可能性があります)。

+0

サイドリマーク:一部のNLPタスクでは、2次カーネルは線形カーネルよりも優れていることが知られています(バイグラムが望ましい文書レベルの作業ではないかもしれません)。 –

+0

humm!知っておくといい。私は、RandomizedPCAがポイントに軸に沿って集中して、私のデータセットの非常にもつれた視覚化を与えるので、カーネルPCAについて考えていました。私は2次元プロットで他の方法で得たクラスタを視覚的に視覚化できるようにしたかったのです。 : –

+0

確かに、Larsmansの多項式のトリックは、線形モデルとハッシュされた非ローカル共出現特徴を使ってより効率的にシミュレートできます。 – ogrisel