2016-03-20 13 views
0

私はpdfsをテキストファイルに変換しようとしています。 私は、変換を実行するには、このコマンドを使用します。Ghostscriptテキストライターは空白行を残す

gs -dBATCH -dNOPAUSE -sDEVICE=txtwrite -sOutputFile=output.txt input.pdf 

Ghostscriptのバージョンは9.07です。

私はPDFで表示されているすべてのテキストを取得します。可能であれば、テキストファイルに空白行を保存したいと思います。あなたはアップグレードすべき

おかげ

+0

通常、PDF *には空白行がありません。 「ライン」の概念さえもかなり広いです - 仕様では、一連のテキストを1行に出力できますが、任意のテキストの「任意の」xとyの位置も許可します。そのような目的のためには、各「線」のy位置を比較し、距離が「空白」として数えられるほど離れているかどうかを判断する必要があります。 – usr2564301

答えて

1

は、Ghostscriptの現在のバージョンは9.18と9.19は非常にまもなくリリースされます。各暫定版には、txtwriteデバイスの修正が含まれています。

PDFファイルには空白行が含まれていないことは間違いありませんが、txtwriteデバイスでは、テキストファイルの空白行と空白行を使用して元のレイアウトの合理的な表現を生成しようとします。

これはtxtwriteの現在のバージョンでのデフォルトの動作ですので、別のTextFormatを選択しない限り、これを既に取得しておく必要があります。

このモードは非常にヒューリスティックであり、容易に騙され、上付き文字、下付き文字、重要なポイントサイズの変更、およびおそらくレイアウトの再現を困難にするその他の属性には対応しません。明らかにあなたの入力ファイルを見ることなく、私はもっとあなたに話すことができます。

関連する問題