2011-03-29 27 views
1

TFIdf(項の頻度、逆の文書の頻度)を計算し、この段階の後にLSI、chi-squareのような方法を使ってMy Matrixの次元を縮小する必要があることがわかりました。 。行列の次元の縮小TFIDF

行列TFIDFの次元削減のためにJavaでカイ二乗検定を実装する方法がわかりません。これを行うためのライブラリやチュートリアルがあれば、私に教えてくださいplease

+0

スパース行列表現を使用していますか? –

+0

こんにちは、 はいlarsmans、私は文書の各期間の重量を計算しました。私は文書の頻度の方法を使用しています。すべての用語を削除します。文書の頻度<しきい値だが、この方法は効率が悪いです。 私はchi squareテストとlatent semantic indexingをjavaでどのように実装することができますか教えてください。 ありがとう – WOW

答えて

0

私はあなたがカイ2乗をしたいとは思わない。それは次元削減のテクニックではありません。

あなたがしたいのは、SVDまたは特異値分解です。これは、LSI/LSAで次元削減のために使用される技術です。

ウィキペディアは、JavaのLSA用に「S-Space Pacakage」というライブラリを使用することを提案しています。私はそれを自分で使ったことはありませんが、それを調べたいかもしれません。

http://code.google.com/p/airhead-research/

3

LSA、LDA用のgensimsライブラリを使用してください。 これは、大規模なデータセットに対して実際にLSAを実行できます。一度にコーパス全体をメモリにロードするのではなく、遅延読み込みを行います。

+0

Gensimは素晴らしいですが、私はOPがJavaソリューションを探していると信じています。 GensimはPython用です。 – Jeff

関連する問題