2016-05-18 9 views
0

Rapidminerを使用してドキュメント間の類似性を計算しています。私は私のJavaアプリケーションからこのプロセスを使用しています。RapidMiner:ドキュメントの類似性を計算する

enter image description here

このプロセスは、データセット内のすべての他の文書と各文書の類似度を算出します。私はすべての文書間の類似性を計算したくない。 私は、選択した1つのドキュメントと他のすべてのドキュメントとの類似性を計算したいだけです。

プロセスの文書は私に彼らのTF-IDFスコアを持つ単語ベクトルを与えます。
類似性データは、これらのベクトル間で余弦類似性を計算します。

基本的に、選択した1つのドキュメントのコサインの類似度をデータセットの他のすべてのドキュメントに計算する必要があります。

RapidMinerで可能ですか?どんな洞察も役に立ちます。ありがとうございました。

EDIT:
ANSWER:

enter image description here

答えて

1

Cross Distancesオペレータが良いだろう。 2つの入力が両方ともサンプルセットです。第1のものはすべての文書の特徴のリストであり、第2のものは単一の文書の特徴のリストである。結果は、距離計算で設定された新しい例です。この例のセットをソートすると(オペレータはソートされたリストを返しているかもしれませんが、Sortを使用できる場合には)、この最小値を見つけてFilter Example Rangeを選択すると、最も近いドキュメントの詳細が表示されます。

+0

ありがとうございます!私は自分の答えを書くために投稿を編集しています。 – coding

+0

このようなアプローチで試してみると、遠くに疑問符が付いていますか?何を探すべきなのか? –

+0

問題を再現できるように十分な詳細を記した新しい質問を投稿することをお勧めします。 – awchisholm

関連する問題