pdftotext

    2

    1答えて

    pdftotextを使用してpdfから作成されたテキストファイルからPythonを使用してテキストを抽出しています。それは2000のファイルの1つであり、この特定のものでは、キーワードの行はEUで終わります。ラインの残りの部分は肉眼では空白なので、次のようになります。 プログラムでは、通常、行末の末尾の空白を取り除き、その後の空白行は無視します。 この例では、テキストファイルで「EU」と同様にht

    1

    2答えて

    こんにちは私はSolrに来ると素朴なユーザーです。次のハードルに私を導いてください。 1)SolrのインデックスPDF文書 ソリューションは、私は、テキストファイルへの入力PDFファイルからコンテンツを抽出するためティカアプリの0.9.jarを使用 を試してみました。今私はJavaコードを書いて、Solrに文書を索引付けしようとしています。 2)私は中央のリモートサーバに文書またはインデックスのい

    3

    3答えて

    PDFから情報を解析/抽出する小さなPythonスクリプトを作成しました。私は私のローカルマシンでそれをテストしました。私はpython 2.6.2とpdftotext version 0.12.4を持っています。 私はウェブホスティングサーバー(dreamhost)でこれを実行しようとしています。それはpythonバージョン2.5.2とpdftotextバージョン3.02を持っています。 - :

    2

    3答えて

    PDFをテキストに変換する必要があり、現在はpdftotext.exeを使用しています。これはときどき結果テキストを駄目にするので、私はそれを使うことはできません。 別のプログラムから呼び出せる無料のツールがありますか?私はコマンドラインツールを好むだろう。