行列の次元の縮小TFIDF

TFIdf（項の頻度、逆の文書の頻度）を計算し、この段階の後にLSI、chi-squareのような方法を使ってMy Matrixの次元を縮小する必要があることがわかりました。。行列の次元の縮小TFIDF

行列TFIDFの次元削減のためにJavaでカイ二乗検定を実装する方法がわかりません。これを行うためのライブラリやチュートリアルがあれば、私に教えてくださいplease

2011-03-29 WOW

スパース行列表現を使用していますか？ –

こんにちは、はいlarsmans、私は文書の各期間の重量を計算しました。私は文書の頻度の方法を使用しています。すべての用語を削除します。文書の頻度<しきい値だが、この方法は効率が悪いです。私はchi squareテストとlatent semantic indexingをjavaでどのように実装することができますか教えてください。ありがとう – WOW

私はあなたがカイ2乗をしたいとは思わない。それは次元削減のテクニックではありません。

あなたがしたいのは、SVDまたは特異値分解です。これは、LSI/LSAで次元削減のために使用される技術です。

ウィキペディアは、JavaのLSA用に「S-Space Pacakage」というライブラリを使用することを提案しています。私はそれを自分で使ったことはありませんが、それを調べたいかもしれません。

http://code.google.com/p/airhead-research/

出典

2011-05-29 05:41:17 Jeff

LSA、LDA用のgensimsライブラリを使用してください。これは、大規模なデータセットに対して実際にLSAを実行できます。一度にコーパス全体をメモリにロードするのではなく、遅延読み込みを行います。

出典

2011-05-28 09:30:08 rahul

Gensimは素晴らしいですが、私はOPがJavaソリューションを探していると信じています。 GensimはPython用です。 – Jeff

答えて

関連する問題