0

クエリとドキュメントの両方についてTF-IDFを計算し、COS距離を使用して結果のランク付けを行い、同様のトップ50文書を取得しようとしました。 同様に、BM25スコアを計算し、最も高いBM25スコアを1位としてランク付けし、同様の上位50のドキュメントを取得します。クエリとドキュメントの類似度を向上させる方法python TFIDF、BM25 precision、recall

しかし、TF-IDFおよびBM25の両方について、結果は良好ではない。

(データセットがラベルであるテストデータセットのサイズが1400のドキュメントです。):

For example in the testing dataset judgment 

the queryID=1 
the relevant document ID is : 19.txt, 25.txt, 35.txt, 38.txt,133.txt,45.txt 

....................... ...............

入力後、queryID = 1を検索システムに作成します。合計1400件の文書から365件の文書を検索しました。

だから私はQUERYID = 1のランキングIT-IDFを使用し、365個の文書

the system might only return the relevant document ID: 38.txt 

同様に、私は365をチェックすることによりQUERYID = 1、365個の文書

the system might only return the relevant document ID: 19.txt 

のランキングBM25を使用しました実際には関連文書ID:19.txt、25.txt、35.txt、38.txt、45.txtとその他の関連性のない文書IDで構成されています。

類似度が低いため、 は精度とリコールに影響します。 精度、リコール、またはランキング方法を改善する方法を知っていますか?

答えて

0

私はあなたが一歩前進し、情報検索のための言語モデルを使うべきだと思います。これはTutorial from Stanford Universityです。

+1

あなたはOPを良いチュートリアルにしていますが、あなたはいくつかの入門的なアイディアを与えて、OPモデルの言語モデルがOPの仕事にとってより良いものになる理由を説明することができます。それ以外の場合は、これをコメントとして書くことができます。 –

関連する問題