すべてのドキュメントが検索されているsolr検索

私は、ウェブサイトをクロールするためにnutch 1.4を使用し、solr 3.5にインデックスデータを使用しました。これは成功しました。私はルークを使って索引データをチェックし、1678の文書が取り出されたことを発見しました。しかし、検索のためのsolrインターフェイスにクエリ文字列（ほんのいくつかのキーワード）を入力すると、すべての1678のドキュメントが取得されました。ほとんどの検索されたWebページにこれらのキーワードがまったく含まれていなかったので、これは奇妙です。すべてのドキュメントが検索されているsolr検索

この問題の考えですか？

ありがとうございます。

サンダー

出典

2012-03-26 thunder

それは何でもかまいません。詳細を追加できますか？たとえば、あなたの 'schema.xml'とあなたが試しているクエリ。ありがとう – javanna

私はクロールしたものは、医学図書館のWebサイトです。それは主に医療用語と用語を含んでいます。たとえば、クエリ文字列 'Clinical Allegy＆Clinical Immunology'を入力した場合、solrはすべての1678ドキュメントを返します。ありがとう！ちなみに – thunder

は、nutch_home/runtime/local/confにあるNutch 1.4から直接コピーされた 'schema.xml'を使用しました。ありがとう！ – thunder

彼らはSolrので検索したときうーん、人々は通常、「行方不明の文書」タイプの問題を抱えています。あなたは反対の問題を抱えています。

ルークでインデックスを開いた直後に、なぜそれが起こっているのかを知ることができます。 Nutchのスキーマを持つデフォルトの検索フィールドはContentです。したがって、Solrに検索用語のみを入力すると、検索対象のフィールドになります。ルークを使ってその内容を調べる。

あなたは、当然のことながら、これらの貴重な資源を知っている：
http://www.lucidimagination.com/blog/2010/09/10/refresh-using-nutch-with-solr/
http://groups.drupal.org/lucene-nutch-and-solr
http://www.mail-archive.com/[email protected]/msg02227.html

出典

2012-03-27 09:35:21

すべてのドキュメントが検索されているsolr検索

答えて

関連する問題