Rapidminerを使用してドキュメント間の類似性を計算しています。私は私のJavaアプリケーションからこのプロセスを使用しています。RapidMiner:ドキュメントの類似性を計算する
このプロセスは、データセット内のすべての他の文書と各文書の類似度を算出します。私はすべての文書間の類似性を計算したくない。 私は、選択した1つのドキュメントと他のすべてのドキュメントとの類似性を計算したいだけです。
プロセスの文書は私に彼らのTF-IDFスコアを持つ単語ベクトルを与えます。
類似性データは、これらのベクトル間で余弦類似性を計算します。
基本的に、選択した1つのドキュメントのコサインの類似度をデータセットの他のすべてのドキュメントに計算する必要があります。
RapidMinerで可能ですか?どんな洞察も役に立ちます。ありがとうございました。
EDIT:
ANSWER:
ありがとうございます!私は自分の答えを書くために投稿を編集しています。 – coding
このようなアプローチで試してみると、遠くに疑問符が付いていますか?何を探すべきなのか? –
問題を再現できるように十分な詳細を記した新しい質問を投稿することをお勧めします。 – awchisholm