2012-02-17 8 views
1

私はこのディレクトリの内容の検索エンジンを持つことができるように、Apache Tikaにサブディレクトリを含むPDFとテキストファイルのディレクトリをインデックスにしてApache Solrに提出する方法を教えてください。pdfファイルのディレクトリを索引付けして検索するためにApache TikaとApache Solrを構成するにはどうすればよいですか?

WindowsまたはLinuxではアドバイスがありません。問題はありません。 これらの2つのプロジェクトのドキュメントはほとんどが開発者のためのものですが、これは問題ではありませんが、 Java開発者。

だから、非常に簡単に:どのように私は/ホーム/材料またはcの検索をインデックスして提供することができ、プロジェクトのApacheのLuceneのファミリーを使用して検索エンジンを構築します:/材料または/ cygdriveの/ C /材料

ありがとうございました

答えて

2

おなじみのプログラミング言語は何ですか? Pythonの男として

、私はurllib2に精通し、HTTPクライアントライブラリとファイルシステムを扱うことができるosモジュールを(リストアウトディレクトリ内のファイルを、Solrのにファイルに投稿するためのファイルポインタを開く)得るでしょう。 setデータ型も関連しており、FSとSolrインデックスのドキュメントを比較するために使用できます。

ので、

  1. は、makeのSolrからすべての文書名を取得するためのロジックとディレクトリ
  2. アップロード
  3. (SolrのライブラリまたはHTTPクライアントライブラリを使用して)のSolrに豊富なドキュメントでPOSTに学びますすべての紛失/変更された文書をSolrに送信します。
2

Solrは、豊富なドキュメントのインデックス作成に役立つExtractingRequestHandlerを提供します。
このページに掲載されている例は、データをSolrに送るためにカールを使用しています。
フォルダとサブフォルダを繰り返し処理してcurlコマンドを実行できる単純なスクリプトを使用すると、すべてのドキュメントにインデックスを作成できます。
SolrのようなSolrクライアントを使用している場合、rsolrを使用すると、ディレクトリを簡単に繰り返し、http URLを実行してドキュメントを索引付けできます。

関連する問題