関連付けマイニングは、検索のために良い結果を得ているようです。関連する用語 in text corpora。このトピックについては、よく知られたLSAメソッドを含むいくつかの研究があります。関連付けを行う最も簡単な方法は、共起行列docs X terms
を作成し、同じ文書内で最も頻繁に使用される用語を見つけることです。以前のプロジェクトでは、TermDocsを繰り返してLuceneで直接実装しました(私はIndexReader.termDocs(Term)と呼んでいます)。しかし、私はSolrに似た何かを見ることはできません。Solrで用語集のマイニングを実装する最も簡単な方法は何ですか?
だから、私のニーズは以下のとおりです。
- 特定のフィールド内の最も関連する用語を取得するには。
- 特定のフィールド内で指定されたに最も近い、という用語を取得するには
私は率は次のようにに答えます:
- 理想的には私が直接指定されたニーズをカバーしてSolrのコンポーネントを見つけたいと思い、それは、直接関連する用語を取得するためのものです。
- これができない場合は、指定フィールドの共起行列情報を取得する方法を探しています。
- これもオプションでない場合、私は1に最も簡単な方法を知りたいのですが)すべての用語を取得し、2)これらの用語はで発生する文書のIDS(番号)を取得します。
私は、トピックをグーグルと私は答えを自分を待っています。ところで、Solrのクラスタリング機能は、「意味論的に関連する結果/ドキュメントをまとめてグループ化する方法」として記述されています。十分に近くない、そうですか? – aitchnyu
クラスタリングは少し違うことです。まず第一に、それは用語ではなく文書で動作するので、用語をクラスタリングすることはできません(少なくとも、クラスタリングでは意味が分かりませんが、Solrで簡単に行う方法はわかりません)。反対のことが可能であるようにも思えますが、用語に関連マイニングを使用して文書に対してクラスタリングを実行できます。 – ffriend