ポストスクリプトファイルからテキスト情報を抽出する方法はありますか？（.ps .eps）

私は、ポストスクリプトイメージファイル（私の軸ラベルのキャプション）に含まれているテキスト情報を抽出します。これらの画像はpgplotで生成されました。私はUbuntuでps2asciiとps2txtを試しましたが、有用な結果は得られませんでした。誰かが別の方法を知っていますか？ポストスクリプトファイルからテキスト情報を抽出する方法はありますか？（.ps .eps）

おかげ

出典

2011-02-08 Hooloovoo

それはPGPLOTではなくテキストを使用して、より線で直接テキストでフォントを描いている可能性があります。特に、pgplotはプロッタを含む広範囲のデバイスに出力するように設計されているため、これを行う必要があります。

編集：

あなたはそれが非常に簡単な画像処理タスクのものより努力の価値があるのに十分なプロットを持っている場合。各ページをモノのtiffのようなものに変換してください。クロムしきい値画像をバイナリに変換する場合、テキストは最大ピクセル値になります。

テンプレートマッチング技術を使用してください。ラベルが個あり、ラベル全体がに一致する場合は、正しいサイズのテンプレートと回転を使用してを開始することもできます。次に、それぞれのプロットにラベル[1-n]が含まれているとフラグを付けます。は実際のテキストを読む必要はありません。あなたはまだかなり簡単にOCRを行うことができ、ラベル、ちょうど軸周りの領域を抽出するかわからない場合

は、は垂直のためにそれを回転させる - と Googleの無料のOCRのlibを使用

//www.astro.caltech：あなたはPGPLOTしている場合でもは、直接ではなく

出典

2011-02-08 15:16:20

画像リストからポストスクリプトPGPLOTの例はhttpそれらを収穫することよりも、OCRやテンプレート画像のためのトレーニングセットを構築することができます.edu /〜tjp/pgplot/example1.ps.gzはこれを正確に行います。 OCR技術は代わりですが、それに応じてキャプションを入力するのと同じように高速かもしれません。 – DSM

@ DSM：私は実際にこれをリバースエンジニアリングに興味があります。あなたの例を使って、私は文字列 "y =x²exp（-x）"を図から抽出したいと思うexample1.ps – Hooloovoo

@Hooloovoo：私はそれを得ますが、Martinの権利：その例では、その文字を構成する行のみ。（これは私が "正確にこれをする"ことを意味しています。）ファイルを見て、確かめるべきです。テキストを取り消すには2つの方法が考えられます：OCRメソッドをビットマップイメージに適用するか、（新しいキャプションの辞書を作っておくことができるので）ポストスクリプトを直接解析する可能性があります。 – DSM

ポストスクリプトファイルからテキスト情報を抽出する方法はありますか？ （.ps .eps）

答えて

関連する問題

ポストスクリプトファイルからテキスト情報を抽出する方法はありますか？（.ps .eps）