2017-07-09 18 views
0

Solrのインデックス作成を初めて利用しています。私はSolrの5.5を使用し、単に私がソースのpdfファイルを削除Apache SolrからのPDFの抽出

#bin/post -c gettingstarted /home/ubuntu/pdf.pdf 

を使用して、その中にPDFファイルをインデックス化。とにかくApache Solrからpdfファイルを取り出すことができますか? URLからインデックスされていることがわかります

http://localhost:8983/solr/gettingstarted/select?q=*.pdf 

ありがとうございます。

答えて

1

デフォルトで正しく索引付けされている場合、スキーマ内で正しく宣言されている場合、PDFコンテンツはフィールド名contentに索引付けされます。そのコンテンツフィールドを使用してキーワード(または*)を検索します。

例: q=content:keyword(キーワード - > PDFファイルに存在している)

http://localhost:8983/solr/gettingstarted/select?q=content:* 

contetntフィールドが定義されていない場合。スキーマファイルにフィールド定義を追加します。

例:フィールド名の宣言

<field name="content" type="text_general" indexed="true" stored="true" multiValued="true"/> 

フィールドタイプdefintion

<fieldType name="text_general" class="solr.TextField" positionIncrementGap="100"> 
     <analyzer type="index"> 
     <tokenizer class="solr.StandardTokenizerFactory"/> 
     <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" /> 
     <filter class="solr.LowerCaseFilterFactory"/> 
     </analyzer> 
     <analyzer type="query"> 
     <tokenizer class="solr.StandardTokenizerFactory"/> 
     <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" /> 
     <filter class="solr.LowerCaseFilterFactory"/> 
     </analyzer> 
    </fieldType> 
+0

私はインデックスを作成この 'ビンのようなPDF /ポスト-cたGettingStarted /ホーム/ Ubuntuの/ pdf.pdf' ' http:// localhost:8983/solr/gettingstarted/select?q = contentは 'q = *。pdf'と同じ結果を示しています。 http:// localhost:8983/solr/gettingstarted/select?q = content:* 'コード404でエラーが発生しました。 ご提案ください。 –

+0

これはおそらく、あなたがコンテンツフィールドを持っていないことを示しています。 '*:*'で検索し、必要な 'fq'を適用してあなたの文書を探しましょう。 –

+0

あなたはどんなエラーを出していますか? @BinoyDalalは 'content'フィールドがあなたのスキーマファイルに定義されていない可能性があると言っています。それを確認してください。私はあなたがpdfを正しく索引付けしなかったと思います。 – vinod

関連する問題