2017-05-29 5 views
0

とPDFのインデックス作成時に作成さんが「内容」欄には、私が正常にインデックス付きPDFの次のリンクで説明するようにPOSTコマンドを使用してを持っていない:インデックス付きのPDFファイル内に格納されているhttp://makble.com/how-to-extract-text-from-pdf-and-post-into-solrSolrの

規約を照会することができ、使用して見つけることができます一般的なクエリまたはテキストフィールド。

しかし、他のPDF関連のフィールドでできる限り「コンテンツ」フィールドは生成されません。私は、フィールドを追加するために管理スキーマファイルを編集してみました:

<field name="content" type="text_general" indexed="false" stored="true" multiValued="true"/> 

<copyField source="content" dest="text"/> 

私はコアをリロードするattempとき、私は次のエラーを取得する:

<str name="msg">Error handling 'reload' action</str> 
<str name="trace"> 
org.apache.solr.common.SolrException: Error handling 'reload' action at org.apache.solr.handler.admin.CoreAdminOperation.lambda$static$2(CoreAdminOperation.java:110) at org.apache.solr.handler.admin.CoreAdminOperation.execute(CoreAdminOperation.java:370) at org.apache.solr.handler.admin.CoreAdminHandler$CallInfo.call(CoreAdminHandler.java:388) at org.apache.solr.handler.admin.CoreAdminHandler.handleRequestBody(CoreAdminHandler.java:174) 

マイsolrconfig.xmlがこれを持っています

<requestHandler name="/update/extract" 
        startup="lazy" 
        class="solr.extraction.ExtractingRequestHandler" > 
    <lst name="defaults"> 
     <str name="lowernames">true</str> 
     <str name="fmap.meta">ignored_</str> 
     <str name="fmap.content">_text_</str> 
    </lst> 
    </requestHandler> 

インデックスされたPDFファイル内にあるテキストのみの検索を実行できる「コンテンツ」フィールドを使用したいと考えています。

答えて

0

1)スキーマファイルを手動で編集しないでください。代わりにSchema APIを使用してください。

2)fmap.contentは、contentフィールドをケースの_text_フィールドにマッピングします。 contentフィールドが既に定義されている場合は、この特定のパラメータをExtractingRequestHandler定義から削除するだけでジョブを実行する必要があります。