pdftotext

2熱

1答えて

pdftotextを使用してpdfから作成されたテキストファイルからPythonを使用してテキストを抽出しています。それは2000のファイルの1つであり、この特定のものでは、キーワードの行はEUで終わります。ラインの残りの部分は肉眼では空白なので、次のようになります。プログラムでは、通常、行末の末尾の空白を取り除き、その後の空白行は無視します。この例では、テキストファイルで「EU」と同様にht

1熱

2答えて

Solr PDF文書を索引してリモートサーバーに投稿する

こんにちは私はSolrに来ると素朴なユーザーです。次のハードルに私を導いてください。 1）SolrのインデックスPDF文書ソリューションは、私は、テキストファイルへの入力PDFファイルからコンテンツを抽出するためティカアプリの0.9.jarを使用を試してみました。今私はJavaコードを書いて、Solrに文書を索引付けしようとしています。 2）私は中央のリモートサーバに文書またはインデックスのい

3熱

3答えて

ローカルマシンからウェブホスティングに変更するとpythonスクリプトからpdftotextが呼び出されない

PDFから情報を解析/抽出する小さなPythonスクリプトを作成しました。私は私のローカルマシンでそれをテストしました。私はpython 2.6.2とpdftotext version 0.12.4を持っています。私はウェブホスティングサーバー（dreamhost）でこれを実行しようとしています。それはpythonバージョン2.5.2とpdftotextバージョン3.02を持っています。 - ：

2熱

3答えて

PDFをpdftotextなしのテキストに変換しますか？

PDFをテキストに変換する必要があり、現在はpdftotext.exeを使用しています。これはときどき結果テキストを駄目にするので、私はそれを使うことはできません。別のプログラムから呼び出せる無料のツールがありますか？私はコマンドラインツールを好むだろう。