2017-09-27 8 views
0

Apache Solrの検索テクノロジが初めてで、フォルダ内の複数のPDFファイルをどのようにインデックス化できるかを理解したいと思います。Apache Solr - 特定のページ番号を持つPDFファイルを持つフォルダのインデックスを作成します。

現在、私はSolr 6.6.1を別のサーバーにインストールしています。期待どおりに正常に動作しています。

この問題を解決するためのいくつかの手順がある記事またはチュートリアルにリダイレクトしてください。ファイル名を指定せずに、すべてのPDFのフォルダ内のテキストを検索したい。たとえば、特定のページ番号のすべてのフォルダファイルでテキスト検索が行われます。

たとえば、フォルダの下にあるすべてのPDFファイルの5ページで「パートナー」という単語を検索したいとします。

答えて

0

最後に、私はApache Solrサイトとその簡単なドキュメントを読んだ後に方法を見つけました。最も簡単で簡単な方法は、「データインポートハンドラ」という方法を使用することです。設定ファイルの名前はdata-config.xmlです。

<dataConfig> 
    <dataSource type="BinFileDataSource"/> <!--Local filesystem--> 
    <document> 
    <entity name="K1FileEntity" processor="FileListEntityProcessor" dataSource="null" 
      baseDir="C:/solr-6.6.1/server/solr/core_myfiles_Depot/Depot" fileName=".*pdf" rootEntity="false"> 

      <field column="file" name="id"/> 
      <field column="fileAbsolutePath" name="path" /> 
      <field column="fileSize" name="size" /> 
      <field column="fileLastModified" name="lastmodified" /> 

       <entity name="pdf" processor="TikaEntityProcessor" onError="skip" 
         url="${K1FileEntity.fileAbsolutePath}" format="text"> 

       <field column="Author" name="author" meta="true"/> 
       <!-- in the original PDF, the Author meta-field name is upper-cased, 
        but in Solr schema it is lower-cased --> 

       <field column="title" name="title" meta="true"/> 
       <field column="dc:format" name="format" meta="true"/> 
       <field column="text" name="text"/> 

       </entity> 
    </entity> 
    </document> 
</dataConfig> 
関連する問題