2016-07-11 20 views
-2

複数ページのPDFからテキストを抽出するにはどうすればよいですか?私はそれがpdftotextまたは他のツールで可能ですなど別の文字列PDFからテキスト(複数ページ)

として、1つの文字列としてページ2を分離されたテキスト文字列

1ページとして、各ページを取得する必要がありますか?

私は最も簡単な方法は、sudo apt-get install poppler-utilsを実行してインストールすることができ、すでに名前のpdftotextツールを用いることであろうLinuxのコマンドラインツール

+0

それにはさまざまな方法がありますが、あなたが望むものを言う必要があります。オンラインツール、オフラインツール、cmdツールなどを使いたいですか?どのOS? –

+0

linux(debian)コマンドライン:) – clarkk

答えて

0

を必要としています。その後、単にpdftotext /link/to/input.pdf /link/to/output.txtを実行することができます。

+0

はい、私はそれを知っています..しかし、どのように各テキスト文字列に各ページを分けるか? – clarkk

+0

しかし、この 'pdftotext $ file -'のように標準出力に出力します。 – clarkk

+0

' -f number'フラグを使うと、変換する最初の面を指定できます。あなたは番号をサイドに置き換えなければなりません。 –

関連する問題