2017-06-26 11 views
0

このコマンドを使用して、ghostscriptを使用してPDFをテキストに変換しようとしています。 -dBATCH -dNOPAUSE -sDEVICE = txtwrite -sOutputFile = bla.txt c:\ temp \ example.pdfGhostscript PDFからテキスト区切り文字

私の問題は、フィールド/列の分離です。私のフィールドのいくつかは、CATDOG12345として "CAT"、 "DOG"、 "12345"の3つのカラムなどのスペースやタブを使わずに区切られます。

使用する区切り文字を指定する方法はありますか。私のテキストは "CAT | DOG | 12345"になりますか?

ありがとうございます。

答えて

0

ソースを変更することができます。しかし、これは、オリジナルがテキストのfrgamentsの間にスペースを持たない限り、起こるべきではありません。あなたが使用しているGhostscriptのバージョンは何も言わず、例を提供していないので、実際にはそれ以上のことは言えません。

いつもテキストを擬似XML形式で出力し、断片とその場所を自分で拾うことができます。

関連する問題