Nutch/Solr - 文書にfield = "content"という語句が少なくとも1つ含まれています

クロール中に、巨大なPDFを解析するときにこの問題が発生しました。スローされるエラーは、スクリーンショットに示されているとおりです。Nutch/Solr - 文書にfield = "content"という語句が少なくとも1つ含まれています

私は「text_general」または「文字列」になく、無駄に「コンテンツ」の種類を変更しようとしました。

通常、Nutch（Apache Tikaを使用）でテキスト抽出が自動化されているので、PDFやOCRを処理する場合は、solr.TruncateTokenFilterFactoryを使用することをお勧めします。これはSolr 4.8から使用可能であり、特定の長さにする。

<filter class="solr.TruncateTokenFilterFactory" prefixLength="5"/>

あなたのケースでは、テキストから抽出された残りのトークンには影響を与えないように十分大きな値を選択してください。任意のトークンが[3,7]から外れた場合には、このケースで

<analyzer> 
    <tokenizer class="solr.StandardTokenizerFactory"/> 
    <filter class="solr.LengthFilterFactory" min="3" max="7"/> 
</analyzer>

：あなたが、その場合には、そうすることができればちょうどこのトークンを無視する方が良いだろう一方

は solr.LengthFilterFactoryを使用します範囲は破棄されます。

2017-06-30 11:40:09

答えて