2

を構築するための無料のデータセット「の英語適合判定がファイルリスト」: http://trec.nist.gov/data/qrels_eng私のようなデータセット見つけることに興味があります(クエリ、ドキュメント、関連性)情報検索システム

このデータセットは、のラベル、ペアが含まれていますクエリとドキュメント。 http://trec.nist.gov/data/docs_eng.html

は、あなたが同様の任意の空きデータセット(S)、このいずれかを知っています: - はしかし、それは「英語のドキュメントデータ」と呼ばれるnonfreeをコーパスに依存しますか?

サイドノート:データセットは、ニューラルネットワークに基づく情報検索システムを構築するためのリサーチプロジェクトで使用されます。

答えて

6

質問にいくつかのTRECコレクションが混乱しています。 ClueWeb09とtrec.nist.gov/data/docs_eng.htmlによって指し示されたドキュメントセットはすべて別々ですドキュメントセットです。つまり、各ドキュメントセットには独自のトピック(クエリ)と関連性判断があり、ドキュメントセットの配布には含まれません。

数十もの異なるTRECテキスト検索テストコレクションがあります。利用可能なコレクションは、作成されたTRECトラックによって編成されたTRECデータページ(trec.nist.gov/data.html)にリストされています。コレクションは一般的に検索問題をサポートするために作成されているため、この方法で編成されていますそのトラックはサポートするように設計されていた

一般的に、クエリと関連性判断はTRECサイトから直接ダウンロードできます。通常、ドキュメントセットは購入する必要があります。ドキュメントセットは元のソースによって著作権が保護されており、ライセンスが必要です。また、ドキュメントセットの収集/配布に関連するその他の重大な費用が必要です。 TRECに参加すると、古いTRECドキュメントセットが無料で入手できます(今年はもうオプションではありません)。いくつかのドキュメントセットは無料ですが、ほとんどの場合でもデータ使用契約に署名する必要があります。 Genomicsトラックには随時検索タスクがあり、そのドキュメントセットはデータ使用契約のもとで無料です。 http://trec.nist.gov/data/genomics.htmlを参照してください。

グラスゴー大学では、他の利用可能なテストコレクションを指し示すページ(一部は無料)がhttp://ir.dcs.gla.ac.uk/resources/test_collections/にあります。これらのほとんどは、今日の基準によって非常に小さいpre-TREC(1992年以前)のコレクションです。

エレン・ボーヒーズ、 TRECプロジェクトマネージャー、 NIST

+0

はどうもありがとうございました、それは私が望んでいたまさにです(あなたはおそらく唯一の小さなコレクションで実証結果の紙審査は非常に懐疑的でしょう。同様に、「タイニー」) 。私はすでにコレクションの間違った名前を変更しました。私にとって、私は他のアプローチに対して私のアプローチをテストするために異なる論文に引用されている最初のコーパスを探していただけです。その後、私はより大きなコレクションを使用します。 もう一度ありがとう。 – AHS

関連する問題