0
クロール中に、巨大なPDFを解析するときにこの問題が発生しました。スローされるエラーは、スクリーンショットに示されているとおりです。Nutch/Solr - 文書にfield = "content"という語句が少なくとも1つ含まれています
私は「text_general」または「文字列」になく、無駄に「コンテンツ」の種類を変更しようとしました。
クロール中に、巨大なPDFを解析するときにこの問題が発生しました。スローされるエラーは、スクリーンショットに示されているとおりです。Nutch/Solr - 文書にfield = "content"という語句が少なくとも1つ含まれています
私は「text_general」または「文字列」になく、無駄に「コンテンツ」の種類を変更しようとしました。
通常、Nutch(Apache Tikaを使用)でテキスト抽出が自動化されているので、PDFやOCRを処理する場合は、solr.TruncateTokenFilterFactory
を使用することをお勧めします。これはSolr 4.8から使用可能であり、特定の長さにする。
<filter class="solr.TruncateTokenFilterFactory" prefixLength="5"/>
あなたのケースでは、テキストから抽出された残りのトークンには影響を与えないように十分大きな値を選択してください。任意のトークンが[3,7]
から外れた場合には、このケースで
<analyzer>
<tokenizer class="solr.StandardTokenizerFactory"/>
<filter class="solr.LengthFilterFactory" min="3" max="7"/>
</analyzer>
:あなたが、その場合には、そうすることができればちょうどこのトークンを無視する方が良いだろう一方
はsolr.LengthFilterFactory
を使用します範囲は破棄されます。