2011-07-17 14 views
1

Lucene/Solr、Whoosh、Sphinx、XapianをDOC、DOCX、HTML、PDF形式で検索しています。 Solrだけが文書を直接索引付けする文書パーサー(Tika)を持つことが文書化されています。だからそれは明らかな勝者のようです。Lucene/Solr、Whoosh、Sphinx、Xapianでの文書検索

しかし、競技場を水平にするために、私は代替案を検討したいと思います。他の人は直接文書インデックス(私が見逃している可能性があります)を持っていますか?そうでない場合、簡単に実装できますか?それともソルは圧倒的な選択ですか?

+0

重複? http://stackoverflow.com/questions/2271600/elasticsearch-sphinx-lucene-solr-xapian-which-fits-for-which-usage – kmote

+0

正確ではありません。私は、この質問の時点で豊かな文書を具体的に索引付けしたいと思っていました。私はソルを選んだ。私は、DBメタデータを使用してDBと豊富なドキュメントのインデックスを作成しました。 – aitchnyu

答えて

0

Sphinxでは、PHPスクリプトを使用してxmlpipe_commandオプションでファイルを変換できます。 PHPにはTikaラッパーがあるので、スクリプトとセットアップ自体を書くのは難しくありません。

関連する問題