3
pythonを使用して文書検索を行いたい。 SolrはJavaのホスティングが制約条件であったため、無駄でした。Whoosh:MS文書、PDFファイルのインデックス作成
だから、whooshは明らかな選択肢のようです。しかし、docやpdfファイルをネイティブに索引付けすることはできないようです(Solrのように)。これらのファイルを直接的に索引付けする方法は何ですか?
pythonを使用して文書検索を行いたい。 SolrはJavaのホスティングが制約条件であったため、無駄でした。Whoosh:MS文書、PDFファイルのインデックス作成
だから、whooshは明らかな選択肢のようです。しかし、docやpdfファイルをネイティブに索引付けすることはできないようです(Solrのように)。これらのファイルを直接的に索引付けする方法は何ですか?
Whooshは、これらの文書から抽出されたテキストが必要です。 Whooshライブラリはあなたのためにその抽出を行いませんが、pdf miner、catdoc、またはantiwordのような、あなたのためにテキストを抽出するPythonライブラリがあります。
は、より多くの情報のためにこれら二つの議論を参照してください。