TFIdf(項の頻度、逆の文書の頻度)を計算し、この段階の後にLSI、chi-squareのような方法を使ってMy Matrixの次元を縮小する必要があることがわかりました。 。行列の次元の縮小TFIDF
行列TFIDFの次元削減のためにJavaでカイ二乗検定を実装する方法がわかりません。これを行うためのライブラリやチュートリアルがあれば、私に教えてくださいplease
TFIdf(項の頻度、逆の文書の頻度)を計算し、この段階の後にLSI、chi-squareのような方法を使ってMy Matrixの次元を縮小する必要があることがわかりました。 。行列の次元の縮小TFIDF
行列TFIDFの次元削減のためにJavaでカイ二乗検定を実装する方法がわかりません。これを行うためのライブラリやチュートリアルがあれば、私に教えてくださいplease
私はあなたがカイ2乗をしたいとは思わない。それは次元削減のテクニックではありません。
あなたがしたいのは、SVDまたは特異値分解です。これは、LSI/LSAで次元削減のために使用される技術です。
ウィキペディアは、JavaのLSA用に「S-Space Pacakage」というライブラリを使用することを提案しています。私はそれを自分で使ったことはありませんが、それを調べたいかもしれません。
LSA、LDA用のgensimsライブラリを使用してください。 これは、大規模なデータセットに対して実際にLSAを実行できます。一度にコーパス全体をメモリにロードするのではなく、遅延読み込みを行います。
Gensimは素晴らしいですが、私はOPがJavaソリューションを探していると信じています。 GensimはPython用です。 – Jeff
スパース行列表現を使用していますか? –
こんにちは、 はいlarsmans、私は文書の各期間の重量を計算しました。私は文書の頻度の方法を使用しています。すべての用語を削除します。文書の頻度<しきい値だが、この方法は効率が悪いです。 私はchi squareテストとlatent semantic indexingをjavaでどのように実装することができますか教えてください。 ありがとう – WOW