私は現在、私のpythonプログラム用のテキストインデクサーを探しています。私は、LuceneプロジェクトであるSolrとPythonにネイティブなWhooshを選びました。私はdoc、docx、pdfファイルのサポートに関する多くのドキュメントを検索し、SolrはTikaパッケージを指し続けました。そのバージョンはSolrと統合されています。doc、docx、およびpdfファイルの埋め込みサポート付きのテキストインデクサー(Python用)
いずれのパッケージにもの3形式の組み込みサポートがある場合、その結果は言及されません。 WhooshとSolrはそれらをサポートしていますか?どの他のオープンソースのインデクサーがこれらの形式をネイティブに読み込みますか?
私は、インデックス作成/検索のためだけにSolrを使用して、sqldbにテキストを保存しているので、extractOnly = trueが役に立ちました。 – Jegschemesch