information-retrieval

3熱

1答えて

私はテキストセマンティック検索エンジンを作成しました。しかし、私は自分のシステムの情報検索を評価できるように、ラベル付けされたデータセットを見つけることができません。ラベルの付いた公開されている文書（テキスト）はありますか？私は情報検索の結果を評価するためにテキスト文書が必要になります。（リコール、精度、F1値...）ありがとう。

0熱

1答えて

コレクション/インデックス内のすべてのトークン数をカウントする方法

私はLucene 5.3.1を使用していますが、すでにいくつかのドキュメントのインデックスを作成していますが、今はのトークンカウント/index）私はすべてのドキュメントを繰り返し処理し、その長さを合計することができます。しかし、実行時間を増やす私の複雑なアルゴリズムのために、私はこのアプローチを避けようとしています。私はルーネンがこのためにAPIを持っている可能性があると思う... 結局のとこ

0熱

1答えて

リンクをファイルに印刷し、後でそれを使用して別のファイルの用語を参照する方法

インデックス構造を作成するには、プログラムを逆に書く必要があります。プログラムへの入力は文書コレクションです。出力には、辞書ファイルと投稿一覧ファイルの2つのファイルが含まれています。辞書の各エントリには、用語、ドキュメントの頻度、および投稿リストへのリンクが含まれている必要があります。辞書（例えば、ハッシュや検索ツリーなど）を構築するには、適切なデータ構造を使用する必要があります。ランダムな検索

0熱

1答えて

2段階文書検索におけるランキング評価手法

私は、クエリ文書の対のテキストの類似性（余弦類似度）に基づいて2段階ランキングシステムを作成しました。今度は、適切に検索されたアイテムが正しいかどうかをランキングシステムで確認する必要があります。どのアプローチを選択する必要がありますか。ランキングを検証するためにPointwise/Pairwise/Listwiseアプローチについて読みましたが、ランキングシステムを手動で評価すると便利です。誰か

0熱

1答えて

精度リコール曲線と平均精度に関する混乱

私の画像検索システムを評価するためにPrecision-Recall曲線について多くのことを読んでいます。特にVLFeatのフィーチャ抽出ツールについてはthis、精度リコールについてはwikipedia pageを読んでいます。私は、このカーブがシステムパフォーマンスw.r.tを評価するのに役立つことを理解します。取得された要素の数私たちは繰り返し精度を計算します。つまり、上の要素、上の2、上

3熱

2答えて

混乱について（平均）平均精度

this質問では、精度再現曲線に関する説明を尋ねました。特に、カーブを描くために一定数のランキングを考慮する必要があるかどうか、あるいは自分自身を合理的に選ぶことができるかどうかを尋ねました。 answerによれば、第2のものは正しい。しかし、今私は平均精度（AP）の値について大きな疑問を抱いています.APは、特定のクエリが与えられたときに私たちのアルゴリズムがどれほど良いかを数値的に評価する

-1熱

1答えて

ドキュメントの類似性 - 奇妙なもの

特定のトピックについて特定の詳細について「n」個のドキュメントがあるとします。大多数の文書と似ていない文書を入手したい。このように漠然としているように、私は2つの文書の間にコサインの類似性を見つける方法を知っています。しかし、私は互いに似ている10の文書を持っていることを「知っている」と言います。私は11番目の文書を紹介し、個々の文書だけでなく、それらの文書とどれほど似ているかを判断する方法が必要

0熱

1答えて

クエリとドキュメントの類似度を向上させる方法python TFIDF、BM25 precision、recall

クエリとドキュメントの両方についてTF-IDFを計算し、COS距離を使用して結果のランク付けを行い、同様のトップ50文書を取得しようとしました。同様に、BM25スコアを計算し、最も高いBM25スコアを1位としてランク付けし、同様の上位50のドキュメントを取得します。しかし、TF-IDFおよびBM25の両方について、結果は良好ではない。（データセットがラベルであるテストデータセットのサイズが1

1熱

2答えて

マレット構成ファイルのヌルソース

トレーニングトピックにマレットを使用したいと思います。私のデータは一つのファイルになっていますので、このOne Singleファイルの構築方法については、マレットのドキュメントを調べます。 Mallet websiteで、つのファイル、1つのインスタンスあたりの行セクションの下で、それは言った： [URL] [言語] [ページのテキスト...] でこの場合、各行の最初のトークン（空白で区切られ

0熱

1答えて

オントロジベースのセマンティック検索クエリドキュメントランク精度リコールの評価IR

セマンティック検索（オントロジー検索）を評価し、取得したドキュメントのランキングを確認する方法を知っていますか？セマンティック検索は、たとえドキュメントにクエリのキーワードがなくても、ドキュメントの同様の意味を検索できるので、である。 TFIDFを使用してクエリとドキュメントを比較し、ランキングを行うことはできません。精度とリコールは正確ではないためです。オントロジーベースのセマンティック検索