2017-06-30 10 views

答えて

0

通常、Nutch(Apache Tikaを使用)でテキスト抽出が自動化されているので、PDFやOCRを処理する場合は、solr.TruncateTokenFilterFactoryを使用することをお勧めします。これはSolr 4.8から使用可能であり、特定の長さにする。

<filter class="solr.TruncateTokenFilterFactory" prefixLength="5"/> 

あなたのケースでは、テキストから抽出された残りのトークンには影響を与えないように十分大きな値を選択してください。任意のトークンが[3,7]から外れた場合には、このケースで

<analyzer> 
    <tokenizer class="solr.StandardTokenizerFactory"/> 
    <filter class="solr.LengthFilterFactory" min="3" max="7"/> 
</analyzer> 

:あなたが、その場合には、そうすることができればちょうどこのトークンを無視する方が良いだろう一方

solr.LengthFilterFactoryを使用します範囲は破棄されます。

関連する問題