2016-12-28 11 views
0

私は記事のデータベースを入手しました。テキストには500文字から2000文字のデータが含まれています。私は第3rdパーティからそのデータを取得しています。新しいデータの場合は データをパーセントで表示する必要があります。重複パーセンテージは50%以上である場合、そのデータを拒否し、データをデータベースに挿入する必要があります。Solrを使って文書間の一致率を計算できますか?

Solrで重複しているパーセンテージは可能ですか?はいの場合、どのようにこれを達成できますか?

ありがとうございました。

答えて

1

SolrはSimilarityの割合ではなく、というスコアのコンセプトでは機能しません。バージョン6のSolrで計算されたスコアはTFIDFとなります。スコアの計算方法に興味がある場合は、this documentを参照してください。バージョン6のスコアから、hereのようにBM25を用いてスコアを計算する。 だからあなたはSolrのを使用したい場合は、以下のいずれかの方法を実行する必要があります:

  1. 代わりパーセントのスコアに基づいたアプローチを採用します。
  2. 割合で作業する独自の類似性クラスを作成します。
+0

Solr 6以降のバージョンでは、TD25のデフォルトの類似度としてBM25が使用されています(「ClassicSimilarity」として利用可能です) – MatsLindh

+0

ありがとう@MatsLindh私はそれに応じて編集しました。 – AR1

+0

これは私のために働いていない、これを達成するための他のツールですか? –

関連する問題