Solrを使って文書間の一致率を計算できますか？

私は記事のデータベースを入手しました。テキストには500文字から2000文字のデータが含まれています。私は第3rdパーティからそのデータを取得しています。新しいデータの場合はデータをパーセントで表示する必要があります。重複パーセンテージは50％以上である場合、そのデータを拒否し、データをデータベースに挿入する必要があります。Solrを使って文書間の一致率を計算できますか？

Solrで重複しているパーセンテージは可能ですか？はいの場合、どのようにこれを達成できますか？

ありがとうございました。

出典

2016-12-28 Deepesh Uniyal

SolrはSimilarityの割合ではなく、というスコアのコンセプトでは機能しません。バージョン6のSolrで計算されたスコアはTFIDFとなります。スコアの計算方法に興味がある場合は、this documentを参照してください。バージョン6のスコアから、hereのようにBM25を用いてスコアを計算する。だからあなたはSolrのを使用したい場合は、以下のいずれかの方法を実行する必要があります：

代わりパーセントのスコアに基づいたアプローチを採用します。
割合で作業する独自の類似性クラスを作成します。

出典

2016-12-28 13:05:40 AR1

Solr 6以降のバージョンでは、TD25のデフォルトの類似度としてBM25が使用されています（「ClassicSimilarity」として利用可能です） – MatsLindh

ありがとう@MatsLindh私はそれに応じて編集しました。 – AR1

これは私のために働いていない、これを達成するための他のツールですか？ –

Solrを使って文書間の一致率を計算できますか？

答えて

関連する問題