doc、docx、およびpdfファイルの埋め込みサポート付きのテキストインデクサー(Python用)
私は現在、私のpythonプログラム用のテキストインデクサーを探しています。私は、LuceneプロジェクトであるSolrとPythonにネイティブなWhooshを選びました。私はdoc、docx、pdfファイルのサポートに関する多くのドキュメントを検索し、SolrはTikaパッケージを指し続けました。そのバージョンはSolrと統合されています。 いずれのパッケージにもの3形式の組み込みサポートがあ