Apache SolrからのPDFの抽出

Solrのインデックス作成を初めて利用しています。私はSolrの5.5を使用し、単に私がソースのpdfファイルを削除Apache SolrからのPDFの抽出

#bin/post -c gettingstarted /home/ubuntu/pdf.pdf

を使用して、その中にPDFファイルをインデックス化。とにかくApache Solrからpdfファイルを取り出すことができますか？ URLからインデックスされていることがわかります

http://localhost:8983/solr/gettingstarted/select?q=*.pdf

ありがとうございます。

出典

2017-07-09 Saqib Iqbal

デフォルトで正しく索引付けされている場合、スキーマ内で正しく宣言されている場合、PDFコンテンツはフィールド名contentに索引付けされます。そのコンテンツフィールドを使用してキーワード（または*）を検索します。

例： q=content:keyword（キーワード - > PDFファイルに存在している）

http://localhost:8983/solr/gettingstarted/select?q=content:*

contetntフィールドが定義されていない場合。スキーマファイルにフィールド定義を追加します。

例：フィールド名の宣言

<field name="content" type="text_general" indexed="true" stored="true" multiValued="true"/>

フィールドタイプdefintion

<fieldType name="text_general" class="solr.TextField" positionIncrementGap="100"> 
     <analyzer type="index"> 
     <tokenizer class="solr.StandardTokenizerFactory"/> 
     <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" /> 
     <filter class="solr.LowerCaseFilterFactory"/> 
     </analyzer> 
     <analyzer type="query"> 
     <tokenizer class="solr.StandardTokenizerFactory"/> 
     <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" /> 
     <filter class="solr.LowerCaseFilterFactory"/> 
     </analyzer> 
    </fieldType>

出典

2017-07-10 07:28:04 vinod

私はインデックスを作成この 'ビンのようなPDF /ポスト-cたGettingStarted /ホーム/ Ubuntuの/ pdf.pdf' ' http：// localhost：8983/solr/gettingstarted/select？q = contentは 'q = *。pdf'と同じ結果を示しています。 http：// localhost：8983/solr/gettingstarted/select？q = content：* 'コード404でエラーが発生しました。ご提案ください。 –

これはおそらく、あなたがコンテンツフィールドを持っていないことを示しています。 '*：*'で検索し、必要な 'fq'を適用してあなたの文書を探しましょう。 –

あなたはどんなエラーを出していますか？ @BinoyDalalは 'content'フィールドがあなたのスキーマファイルに定義されていない可能性があると言っています。それを確認してください。私はあなたがpdfを正しく索引付けしなかったと思います。 – vinod

Apache SolrからのPDFの抽出

答えて

関連する問題