2011-12-21 15 views
1

私はthisを読んできましたが、Solrは静的ファイル(コンテンツ管理システムやデータベースの外部)を検索する機能を持っていますか?Solrは静的ファイルをインデックス/検索できますか?

私のファイルの一部は、任意のテキスト入力...ちょうどストレートのhtml ...またはHTMLの「ブロック」で、サーバー側のコードまで

+0

あなたはPDFファイル、HTML、ドキュメントなどのリッチテキストドキュメントをアップロードする意味ですか?これはhttp://wiki.apache.org/solr/ExtractingRequestHandler – aitchnyu

+0

はい、いくつかのPDFファイルですが、その中にはHTMLのブロックを含むいくつかの.cfmファイルもあります。 – redconservatory

+0

ColdFusionのマークアップのインデックスを作成していますか?あなたは説明するビットがあります。 Solrは「彼は自己中心のジャッカス」と「彼=自己::センター(++ジャナス)」のインデックスをつけます** **全く同じ方法:句読点からトークンを抽出し(トークン化)、ストップワードを削除してから各単語の根拠(ステミング)を作成し、クエリに使用できるようにします。あなたはNullegeのようなプロジェクトを望んでいますか?コードレポを管理していますか? TortoiseHGは、水銀のGUIが役立ちます。 – aitchnyu

答えて

2

Solrの缶インデックスです。重要なのは、のテキストを索引付けすることです。したがって、静的ファイルがテキストファイルでない場合は、最初にTikaのようなツールを使用して実行する必要があります。そうすれば、SolRは抽出されたテキストデータの索引作成に問題はありません。

関連する問題