2
30.000テキストのデータセットでKernelPCAを実行しようとすると、メモリエラーが発生します。ランダム化されたPCAは問題なく動作します。私はRandomizedPCAがまばらな配列で動作し、KernelPCAがそうでないことが起こっていると思います。python、scikits-learn:どの学習方法がスパースな特徴ベクトルをサポートしていますか?
現在、scikits-learnでスパース配列のサポートを実装している学習方法のリストはありますか?
サイドリマーク:一部のNLPタスクでは、2次カーネルは線形カーネルよりも優れていることが知られています(バイグラムが望ましい文書レベルの作業ではないかもしれません)。 –
humm!知っておくといい。私は、RandomizedPCAがポイントに軸に沿って集中して、私のデータセットの非常にもつれた視覚化を与えるので、カーネルPCAについて考えていました。私は2次元プロットで他の方法で得たクラスタを視覚的に視覚化できるようにしたかったのです。 : –
確かに、Larsmansの多項式のトリックは、線形モデルとハッシュされた非ローカル共出現特徴を使ってより効率的にシミュレートできます。 – ogrisel