2012-03-26 15 views
0

私は、ウェブサイトをクロールするためにnutch 1.4を使用し、solr 3.5にインデックスデータを使用しました。これは成功しました。私はルークを使って索引データをチェックし、1678の文書が取り出されたことを発見しました。しかし、検索のためのsolrインターフェイスにクエリ文字列(ほんのいくつかのキーワード)を入力すると、すべての1678のドキュメントが取得されました。ほとんどの検索されたWebページにこれらのキーワードがまったく含まれていなかったので、これは奇妙です。すべてのドキュメントが検索されているsolr検索

この問題の考えですか?

ありがとうございます。

サンダー

+1

それは何でもかまいません。詳細を追加できますか?たとえば、あなたの 'schema.xml'とあなたが試しているクエリ。ありがとう – javanna

+0

私はクロールしたものは、医学図書館のWebサイトです。それは主に医療用語と用語を含んでいます。たとえば、クエリ文字列 'Clinical Allegy&Clinical Immunology'を入力した場合、solrはすべての1678ドキュメントを返します。ありがとう!ちなみに – thunder

+0

は、nutch_home/runtime/local/confにあるNutch 1.4から直接コピーされた 'schema.xml'を使用しました。ありがとう! – thunder

答えて

0

彼らはSolrので検索したときうーん、人々は通常、「行方不明の文書」タイプの問題を抱えています。あなたは反対の問題を抱えています。

ルークでインデックスを開いた直後に、なぜそれが起こっているのかを知ることができます。 Nutchのスキーマを持つデフォルトの検索フィールドはContentです。したがって、Solrに検索用語のみを入力すると、検索対象のフィールドになります。ルークを使ってその内容を調べる。

あなたは、当然のことながら、これらの貴重な資源を知っている:
http://www.lucidimagination.com/blog/2010/09/10/refresh-using-nutch-with-solr/
http://groups.drupal.org/lucene-nutch-and-solr
http://www.mail-archive.com/[email protected]/msg02227.html

関連する問題