pdftotext

5熱

1答えて

imを解析しようとしていますpdf〜〜PHP〜XPDF（pdftotext.exe）です。私のlocalhost上ではうまくいきますが、サーバ上のすべてを動かそうとすると、私は問題に陥ります。私は、サーバーとセーフモードにいくつかの設定をチェックし、すべての最初には、幹部が無効と権限がrwxrwxrwxているされていない、オフです。次に作業イマイチこの $command = "\\\\149.

1熱

2答えて

Windowsにpdftotextをインストールする（R、 'tm'パッケージ用）

R、 'tm'パッケージを使用して.pdfファイルを読み込む際に問題があります。は具体的に、私は次のコードを実行しよう： library(tm) filename = "myfile.pdf" tmp1 <- readPDF(PdftotextOptions="-layout") doc <- tmp1(elem=list(uri=filename),language="en",id="

1熱

2答えて

メモ帳++特定の記号の後に新しい段落を追加します

テキストが1行にあります。私の目的は、すべての新しいステートメントを新しい行に持ち込むことです。毎回 "。"シンボル次のステートメントを新しい行にしたい。それを達成する方法。私はすでに.\s*を.\nに置き換えようとしましたが、それ以外のテキストは削除して "。"

1熱

1答えて

（パイプを使用して|）の2つのコマンドを使用して私は、端末のメモリと印刷（pdftotext）でPDF（unoconv）にドキュメントを変換してるのspawn

で： unoconv -f pdf --stdout sample.doc | pdftotext -layout -enc UTF-8 - out.txt 取り組んでいます。今、私はchild_process.spawnでこのコマンドを使用します： let filePath = "...", process = child_process.spawn("unoconv", [ "

-2熱

1答えて

PDFからテキスト（複数ページ）

複数ページのPDFからテキストを抽出するにはどうすればよいですか？私はそれがpdftotextまたは他のツールで可能ですなど別の文字列として、1つの文字列としてページ2を分離されたテキスト文字列 1ページとして、各ページを取得する必要がありますか？私は最も簡単な方法は、sudo apt-get install poppler-utilsを実行してインストールすることができ、すでに名前のpdft

-1熱

1答えて

itextpdfインサート7 beetwenスペースとドットエキスのテキスト

私の問題は、このイメージ http://185.49.12.119/~pogdan/7spacedot/7spacedot.jpg 入力ファイル http://185.49.12.119/~pogdan/7spacedot/monitor_2016_99.pdf 出力ファイル http://185.49.12.119/~pogdan/7spacedot/monitor_2016_99.txt ja

1熱

1答えて

pdftotextを使用した後：txtからの文字列のページを見つけよう

私は現在Pythonでコーディングしており、pdfからテキストを抽出するためにpdftotextを使用するように管理しています。この特定のテキストファイルは、文字列のリストに分割されています。正規表現を使用することで、私が興味を持っている特定の単語を見つけることができます。テキストをリストに分割する理由は、2つの特定の単語の間の距離を測定し、距離によって距離二つの単語。しかし、単語の位置を見つ

0熱

1答えて

Pythonのテキストファイルにhtmlタグを書く

私は、複雑な（表、図）と非常に長いpdfをhtmlに変換するためにpdfminerを使用しました。結果をさらに解析したい（たとえば、テーブルや段落を抽出するなど）、nltkのsentence tokenizerを使用してさらに分析を行いたいとします。この目的のために、私は解析を行う方法を理解するために、HTMLファイルをテキストファイルに保存します。残念ながら、私のコードは、TXTにHTMLを書き

0熱

3答えて

Foxit SDKを使用してテキスト形式のpdfを抽出する

私はFoxit SDKを使用してPDF文書からテキストを抽出しています。すべては問題ありませんが、英語以外の言語でpdfを抽出すると、正しい出力が得られません。私もPDFBoxをjavaで使用しましたが、Foxit SDKの出力はPDFBoxよりも優れています。問題を解決できる他のライブラリがありますか？またはその他の解決策があります。