2011-02-08 12 views
3

私は、ポストスクリプトイメージファイル(私の軸ラベルのキャプション)に含まれているテキスト情報を抽出します。 これらの画像はpgplotで生成されました。私はUbuntuでps2asciiとps2txtを試しましたが、有用な結果は得られませんでした。誰かが別の方法を知っていますか?ポストスクリプトファイルからテキスト情報を抽出する方法はありますか? (.ps .eps)

おかげ

答えて

6

それはPGPLOTではなくテキストを使用して、より線で直接テキストでフォントを描いている可能性があります。特に、pgplotはプロッタを含む広範囲のデバイスに出力するように設計されているため、これを行う必要があります。

編集:

あなたはそれが非常に簡単な 画像処理タスクのものより 努力の価値があるのに十分なプロットを持っている場合。各 ページをモノのtiffのようなものに変換してください。 クロムしきい値画像をバイナリに変換する場合、 テキストは最大ピクセル値になります。

テンプレートマッチング技術を使用してください。 ラベルが 個あり、ラベル全体が に一致する場合は、正しいサイズのテンプレート と回転を使用して を開始することもできます。次に、それぞれの プロットにラベル[1-n]が含まれているとフラグを付けます。 は実際のテキストを読む必要はありません。あなたは まだかなり簡単にOCRを行うことができ、ラベル、ちょうど 軸周りの領域を抽出するかわからない 場合

は、 は垂直のためにそれを回転させる - と Googleの無料のOCRのlibを使用

//www.astro.caltech:あなたはPGPLOTしている場合でも は、直接ではなく

+0

画像リストからポストスクリプトPGPLOTの例はhttpそれらを収穫することよりも、OCRや テンプレート画像のためのトレーニングセットを構築することができます.edu /〜tjp/pgplot/example1.ps.gzはこれを正確に行います。 OCR技術は代わりですが、それに応じてキャプションを入力するのと同じように高速かもしれません。 – DSM

+0

@ DSM:私は実際にこれをリバースエンジニアリングに興味があります。あなたの例を使って、私は文字列 "y =x²exp(-x)"を図から抽出したいと思うexample1.ps – Hooloovoo

+0

@Hooloovoo:私はそれを得ますが、Martinの権利:その例では、その文字を構成する行のみ。 (これは私が "正確にこれをする"ことを意味しています。)ファイルを見て、確かめるべきです。テキストを取り消すには2つの方法が考えられます:OCRメソッドをビットマップイメージに適用するか、(新しいキャプションの辞書を作っておくことができるので)ポストスクリプトを直接解析する可能性があります。 – DSM

関連する問題