pdftotext

    5

    1答えて

    imを解析しようとしていますpdf〜〜PHP〜XPDF(pdftotext.exe)です。私のlocalhost上ではうまくいきますが、サーバ上のすべてを動かそうとすると、私は問題に陥ります。 私は、サーバーとセーフモードにいくつかの設定をチェックし、すべての最初には、幹部が無効と権限がrwxrwxrwxているされていない、オフです。 次に作業イマイチこの $command = "\\\\149.

    1

    2答えて

    R、 'tm'パッケージを使用して.pdfファイルを読み込む際に問題があります。 は具体的に、私は次のコードを実行しよう: library(tm) filename = "myfile.pdf" tmp1 <- readPDF(PdftotextOptions="-layout") doc <- tmp1(elem=list(uri=filename),language="en",id="

    1

    2答えて

    テキストが1行にあります。私の目的は、すべての新しいステートメントを新しい行に持ち込むことです。毎回 "。"シンボル次のステートメントを新しい行にしたい。それを達成する方法。私はすでに.\s*を.\nに置き換えようとしましたが、それ以外のテキストは削除して "。"

    1

    1答えて

    で: unoconv -f pdf --stdout sample.doc | pdftotext -layout -enc UTF-8 - out.txt 取り組んでいます。今、私はchild_process.spawnでこのコマンドを使用します: let filePath = "...", process = child_process.spawn("unoconv", [ "

    -2

    1答えて

    複数ページのPDFからテキストを抽出するにはどうすればよいですか?私はそれがpdftotextまたは他のツールで可能ですなど別の文字列 として、1つの文字列としてページ2を分離されたテキスト文字列 1ページとして、各ページを取得する必要がありますか? 私は最も簡単な方法は、sudo apt-get install poppler-utilsを実行してインストールすることができ、すでに名前のpdft

    -1

    1答えて

    私の問題は、このイメージ http://185.49.12.119/~pogdan/7spacedot/7spacedot.jpg 入力ファイル http://185.49.12.119/~pogdan/7spacedot/monitor_2016_99.pdf 出力ファイル http://185.49.12.119/~pogdan/7spacedot/monitor_2016_99.txt ja

    1

    1答えて

    私は現在Pythonでコーディングしており、pdfからテキストを抽出するためにpdftotextを使用するように管理しています。 この特定のテキストファイルは、文字列のリストに分割されています。正規表現を使用することで、私が興味を持っている特定の単語を見つけることができます。テキストをリストに分割する理由は、2つの特定の単語の間の距離を測定し、距離によって距離二つの単語。 しかし、単語の位置を見つ

    0

    1答えて

    私は、複雑な(表、図)と非常に長いpdfをhtmlに変換するためにpdfminerを使用しました。結果をさらに解析したい(たとえば、テーブルや段落を抽出するなど)、nltkのsentence tokenizerを使用してさらに分析を行いたいとします。この目的のために、私は解析を行う方法を理解するために、HTMLファイルをテキストファイルに保存します。残念ながら、私のコードは、TXTにHTMLを書き

    0

    3答えて

    私はFoxit SDKを使用してPDF文書からテキストを抽出しています。 すべては問題ありませんが、英語以外の言語でpdfを抽出すると、正しい出力が得られません。 私もPDFBoxをjavaで使用しましたが、Foxit SDKの出力はPDFBoxよりも優れています。 問題を解決できる他のライブラリがありますか? またはその他の解決策があります。