Solrでの得点の理解

私はSolrには新しく、各文書がjsonであるいくつかの文書の索引付けを試みています。スコアが高いはずですがスコアが非常に低いドキュメントがいくつかあります。私が照会しているフィールドのタイプはtext_generalです。 tfNorm、フィールド長などのフィールドの理解が必要です。Solrでの得点の理解

添付されているのはデバッグクエリの結果です。

"718152d81b4db95f":"\n1.0891073 = sum of:\n 0.5578956 = weight(channel_genre:sports in 53) [SchemaSimilarity], result of:\n 0.5578956 = score(doc=53,freq=11.0 = termFreq=11.0\n), product of:\n  0.29769886 = idf(docFreq=223, docCount=300)\n  1.8740268 = tfNorm, computed from:\n  11.0 = termFreq=11.0\n  1.2 = parameter k1\n  0.75 = parameter b\n  142.80667 = avgFieldLength\n  256.0 = fieldLength\n 0.53121173 = weight(channel_genre:kids in 53) [SchemaSimilarity], result of:\n 0.53121173 = score(doc=53,freq=12.0 = termFreq=12.0\n), product of:\n  0.27996004 = idf(docFreq=227, docCount=300)\n  1.8974556 = tfNorm, computed from:\n  12.0 = termFreq=12.0\n  1.2 = parameter k1\n  0.75 = parameter b\n  142.80667 = avgFieldLength\n  256.0 = fieldLength\n", 
    "7071fa048f60603":"\n1.0834496 = sum of:\n 0.5491592 = weight(channel_genre:sports in 75) [SchemaSimilarity], result of:\n 0.5491592 = score(doc=75,freq=23.0 = termFreq=23.0\n), product of:\n  0.29769886 = idf(docFreq=223, docCount=300)\n  1.8446804 = tfNorm, computed from:\n  23.0 = termFreq=23.0\n  1.2 = parameter k1\n  0.75 = parameter b\n  142.80667 = avgFieldLength\n  655.36 = fieldLength\n 0.53429043 = weight(channel_genre:kids in 75) [SchemaSimilarity], result of:\n 0.53429043 = score(doc=75,freq=29.0 = termFreq=29.0\n), product of:\n  0.27996004 = idf(docFreq=227, docCount=300)\n  1.9084525 = tfNorm, computed from:\n  29.0 = termFreq=29.0\n  1.2 = parameter k1\n  0.75 = parameter b\n  142.80667 = avgFieldLength\n  655.36 = fieldLength\n", 
    "17e4a205707dc974":"\n1.0824875 = sum of:\n 0.62048614 = weight(channel_genre:sports in 64) [SchemaSimilarity], result of:\n 0.62048614 = score(doc=64,freq=24.0 = termFreq=24.0\n), product of:\n  0.29769886 = idf(docFreq=223, docCount=300)\n  2.0842745 = tfNorm, computed from:\n  24.0 = termFreq=24.0\n  1.2 = parameter k1\n  0.75 = parameter b\n  142.80667 = avgFieldLength\n  163.84 = fieldLength\n 0.46200132 = weight(channel_genre:kids in 64) [SchemaSimilarity], result of:\n 0.46200132 = score(doc=64,freq=4.0 = termFreq=4.0\n), product of:\n  0.27996004 = idf(docFreq=227, docCount=300)\n  1.6502403 = tfNorm, computed from:\n  4.0 = termFreq=4.0\n  1.2 = parameter k1\n  0.75 = parameter b\n  142.80667 = avgFieldLength\n  163.84 = fieldLength\n", 
    "1a48c3a658cc07af":"\n1.0820175 = sum of:\n 0.58498204 = weight(channel_genre:sports in 59) [SchemaSimilarity], result of:\n 0.58498204 = score(doc=59,freq=16.0 = termFreq=16.0\n), product of:\n  0.29769886 = idf(docFreq=223, docCount=300)\n  1.9650128 = tfNorm, computed from:\n  16.0 = termFreq=16.0\n  1.2 = parameter k1\n  0.75 = parameter b\n  142.80667 = avgFieldLength\n  256.0 = fieldLength\n 0.49703547 = weight(channel_genre:kids in 59) [SchemaSimilarity], result of:\n 0.49703547 = score(doc=59,freq=8.0 = termFreq=8.0\n), product of:\n  0.27996004 = idf(docFreq=227, docCount=300)\n  1.7753801 = tfNorm, computed from:\n  8.0 = termFreq=8.0\n  1.2 = parameter k1\n  0.75 = parameter b\n  142.80667 = avgFieldLength\n  256.0 = fieldLength\n", 
    "e073dacae12f494b":"\n1.0804946 = sum of:\n 0.5613358 = weight(channel_genre:sports in 17) [SchemaSimilarity], result of:\n 0.5613358 = score(doc=17,freq=19.0 = termFreq=19.0\n), product of:\n  0.29769886 = idf(docFreq=223, docCount=300)\n  1.8855827 = tfNorm, computed from:\n  19.0 = termFreq=19.0\n  1.2 = parameter k1\n  0.75 = parameter b\n  142.80667 = avgFieldLength\n  455.1111 = fieldLength\n 0.51915884 = weight(channel_genre:kids in 17) [SchemaSimilarity], result of:\n 0.51915884 = score(doc=17,freq=17.0 = termFreq=17.0\n), product of:\n  0.27996004 = idf(docFreq=227, docCount=300)\n  1.8544034 = tfNorm, computed from:\n  17.0 = termFreq=17.0\n  1.2 = parameter k1\n  0.75 = parameter b\n  142.80667 = avgFieldLength\n  455.1111 = fieldLength\n", 
    "c69628bbb1d9f3ca":"\n1.0785265 = sum of:\n 0.55884564 = weight(channel_genre:sports in 96) [SchemaSimilarity], result of:\n 0.55884564 = score(doc=96,freq=14.0 = termFreq=14.0\n), product of:\n  0.29769886 = idf(docFreq=223, docCount=300)\n  1.877218 = tfNorm, computed from:\n  14.0 = termFreq=14.0\n  1.2 = parameter k1\n  0.75 = parameter b\n  142.80667 = avgFieldLength\n  334.36734 = fieldLength\n 0.51968086 = weight(channel_genre:kids in 96) [SchemaSimilarity], result of:\n 0.51968086 = score(doc=96,freq=13.0 = termFreq=13.0\n), product of:\n  0.27996004 = idf(docFreq=227, docCount=300)\n  1.8562679 = tfNorm, computed from:\n  13.0 = termFreq=13.0\n  1.2 = parameter k1\n  0.75 = parameter b\n  142.80667 = avgFieldLength\n  334.36734 = fieldLength\n",

は、私が「c69628bbb1d9f3ca」のスコアを提出したクエリによると、私は理解することが、ここで行方不明です他のdocuments.Whatよりも高くする必要があります。説明してください。

出典

2017-01-23 annu

channel_genreフィールドをデバッグしています。フィールドc69628bbb1d9f3caの場合、スコアは用語の数とフィールドの長さの影響を受けますが、スコアはわずかに結果に違いがあります。

用語頻度は、用語がフィールドに表示される頻度の尺度、より多くの試合、多くの重要な結果
フィールドの長さである - 短いフィールドにはヒットが含まれているので、ブーストを取得する可能性が低いです。

標準のクエリパーサーを使用していますか？

結果が間違っていると思われる理由を説明できますか？

また、長さの正規化を無効にする場合は、omitNorms = "true"としてください。

出典

2017-01-23 08:47:49

は、Solrのではクエリがある - channel_genre：「スポーツ」AND channel_genre：「キッズすなわち返されたドキュメントの数（両方の子供とスポーツ事前優性を見たユーザーの数）：150 最大スコア：1.2256454 I Top 100に入るかどうかを検証するためにKidsとSportsの両方を頻繁に視聴する100人のユーザーを追加しました。しかし、100を下回る6人のユーザーがあり、 "c69628bbb1d9f3ca"はそのようなユーザーの1人です。フィールドの長さがスコアに大きな影響を与えるかどうかを理解したかっただけです。 – annu

あなたが掲示したフィールドのスコアの近さを考えれば、私はそれがこの場合に起こると言います。 –

あなたのフィールドでomitNorms = "true"を試してみましたか（長さの正規化を無効にする必要があります） –

答えて

関連する問題